🎙️ ElevenLabs ⏱ 6 min read 🗣️ テキスト読み上げ

Text to Speech — Technical Guide

任意のテキストを入力し、自然なAI音声で話されるのを聞きます — 30以上の言語で数千の声の中から選択し、複数の声の対話を作成し、感情、速度、配信スタイルを制御します。

🗣️

Text to Speech

elevenlabs audio /app/elevenlabs-tts →

テキスト読み上げは、書かれた言葉を自然な音声に変えます。言いたいことを入力し、数千のライブラリから声を選び、AIが実際の人間のように聞こえる音声を生成します — 自然なリズム、間、表現を持っています。30以上の言語をサポートしています。

4つのモードが異なるニーズをカバーします。音声生成は、単一の声でテキストから音声を生成します — 最もシンプルで一般的な使用法です。タイミング付き音声は、出力にキャラクターレベルのタイムスタンプを追加し、音声を字幕やアニメーションと同期させるのに便利です。対話生成では、異なる行に異なる声を割り当て、最大10人のユニークな話者による複数の声の会話を生成します。タイムスタンプ付き対話は、タイミングデータと複数の声を組み合わせ、正確な同期ワークフローを実現します。

感情と配信の制御により、音声が人間らしく感じられます。最新のv3モデルでは、オーディオタグを使用してテキストに直接指示を挿入できます — 単語をささやき、興奮、またはため息としてマークすると、声が自然に反応します。速度と安定性のスライダーで、声がどれだけ速く話すか、どれだけ一貫性を持つかを微調整します。

生成された音声は、ポッドキャスト、ナレーション、ボイスオーバー用に単独で機能するか、他のツールに直接フィードします — Avatar（写真を話す動画に変換）やLip Sync（既存の動画の誰かに話させる）の音声入力として使用します。これが、AIキャラクターにすべてのコンテンツで声を与える方法です。

✦ Best Results Tips

🎧 生成前に声をプレビュー

声のライブラリをブラウズし、コミットする前にプレビューを聞いてください。異なる声は異なるコンテンツに優れています — 一部は温かく会話的に聞こえ、他は権威的でプロフェッショナルに聞こえます。キャラクターに合った声を見つけてください。

✍️ 自然な間のための句読点を使用

コンマは短い間を作り、ピリオドは長い間を作り、三点リーダーは引きずるようなためらいを作ります。話したいようにテキストを書いてください — 句読点はリズムとペースを制御する最も簡単な方法です。

🎭 感情のためのオーディオタグ（v3のみ）

v3モデルでは、[excited]、[whispers]、[sigh]のようなタグをテキストに直接挿入して、文中で配信を変更できます。ページ上の任意のタグピルをクリックして、カーソル位置に挿入します。

💬 会話のための対話モード

複数の声が必要な場合は、対話生成を使用してください — 各行には独自の声の割り当てがあります。生成ごとに最大10のユニークな声。ポッドキャストスタイルのコンテンツ、インタビュー、またはキャラクターのインタラクションに最適です。

⚡ スピードのためのフラッシュ、品質のための多言語

フラッシュとターボモデルは、より速く生成し、コストが低くなります — 草稿やテストに最適です。多言語のv2とv3は、最も自然で表現豊かな音声を生成します — 公開する予定の最終コンテンツに使用してください。

🔗 AvatarまたはLip Syncに音声をフィード

ここで音声を生成し、その後、音声ファイルをAvatar（写真を話す動画に変換）やLip Sync（既存の動画の誰かに話させる）の入力として使用します。これが、AIキャラクターの音声パイプラインです。

Text to Speech — Available Models

Multilingual v2

Default Default

eleven_multilingual_v2

29 languages, best quality for non-English. Default for dubbing.

29 languages

v3 — Latest

Latest

eleven_v3

74 languages, newest model.

74 languages

Flash v2.5

Fast

eleven_flash_v2_5

Ultra-fast, cost-efficient. 32 languages.

32 languages

Turbo v2.5

eleven_turbo_v2_5

Low-latency streaming. 32 languages.

32 languages

📥 You Give

📝Text to Speak 🎙️Voice Selection 🎭Emotion (optional) 🌍Language

✨

AI Magic

elevenlabs

🎵 You Get

🎵 Audio

Modes

Speech

Speech + Timing

Dialogue

Dialogue + Timing

Output formats

MP3 WAV PCM OPUS

🌍

74 languages

Model maximum

📝

5,000 chars

Max text per request

🗣️

10 inputs

10 voices

⚡

Speed 0.5-2x

Playback rate

🎯

Stability 0-1

Voice consistency

💰 Text to Speech — Pricing

Estimated cost

—

Failed jobs are automatically refunded