Home AIツール AIガイド AIモデル AIクリエイター 🛒 購入 始める
🎙️ ElevenLabs ⏱ 6 min read 🗣️ テキスト読み上げ

Text to Speech — Technical Guide

任意のテキストを入力し、自然なAI音声で話されるのを聞きます — 30以上の言語で数千の声の中から選択し、複数の声の対話を作成し、感情、速度、配信スタイルを制御します。

🗣️

Text to Speech

elevenlabs audio /app/elevenlabs-tts →
任意のテキストを入力し、自然なAI音声で話されるのを聞きます — 30以上の言語で数千の声の中から選択し、複数の声の対話を作成し、感情、速度、配信スタイルを制御します。
テキスト読み上げは、書かれた言葉を自然な音声に変えます。言いたいことを入力し、数千のライブラリから声を選び、AIが実際の人間のように聞こえる音声を生成します — 自然なリズム、間、表現を持っています。30以上の言語をサポートしています。

4つのモードが異なるニーズをカバーします。音声生成は、単一の声でテキストから音声を生成します — 最もシンプルで一般的な使用法です。タイミング付き音声は、出力にキャラクターレベルのタイムスタンプを追加し、音声を字幕やアニメーションと同期させるのに便利です。対話生成では、異なる行に異なる声を割り当て、最大10人のユニークな話者による複数の声の会話を生成します。タイムスタンプ付き対話は、タイミングデータと複数の声を組み合わせ、正確な同期ワークフローを実現します。

感情と配信の制御により、音声が人間らしく感じられます。最新のv3モデルでは、オーディオタグを使用してテキストに直接指示を挿入できます — 単語をささやき、興奮、またはため息としてマークすると、声が自然に反応します。速度と安定性のスライダーで、声がどれだけ速く話すか、どれだけ一貫性を持つかを微調整します。

生成された音声は、ポッドキャスト、ナレーション、ボイスオーバー用に単独で機能するか、他のツールに直接フィードします — Avatar(写真を話す動画に変換)やLip Sync(既存の動画の誰かに話させる)の音声入力として使用します。これが、AIキャラクターにすべてのコンテンツで声を与える方法です。
✦ Best Results Tips
🎧 生成前に声をプレビュー
声のライブラリをブラウズし、コミットする前にプレビューを聞いてください。異なる声は異なるコンテンツに優れています — 一部は温かく会話的に聞こえ、他は権威的でプロフェッショナルに聞こえます。キャラクターに合った声を見つけてください。
✍️ 自然な間のための句読点を使用
コンマは短い間を作り、ピリオドは長い間を作り、三点リーダーは引きずるようなためらいを作ります。話したいようにテキストを書いてください — 句読点はリズムとペースを制御する最も簡単な方法です。
🎭 感情のためのオーディオタグ(v3のみ)
v3モデルでは、[excited]、[whispers]、[sigh]のようなタグをテキストに直接挿入して、文中で配信を変更できます。ページ上の任意のタグピルをクリックして、カーソル位置に挿入します。
💬 会話のための対話モード
複数の声が必要な場合は、対話生成を使用してください — 各行には独自の声の割り当てがあります。生成ごとに最大10のユニークな声。ポッドキャストスタイルのコンテンツ、インタビュー、またはキャラクターのインタラクションに最適です。
スピードのためのフラッシュ、品質のための多言語
フラッシュとターボモデルは、より速く生成し、コストが低くなります — 草稿やテストに最適です。多言語のv2とv3は、最も自然で表現豊かな音声を生成します — 公開する予定の最終コンテンツに使用してください。
🔗 AvatarまたはLip Syncに音声をフィード
ここで音声を生成し、その後、音声ファイルをAvatar(写真を話す動画に変換)やLip Sync(既存の動画の誰かに話させる)の入力として使用します。これが、AIキャラクターの音声パイプラインです。

Text to Speech — Available Models

Multilingual v2
Default Default
eleven_multilingual_v2
29 languages, best quality for non-English. Default for dubbing.
29 languages
v3 — Latest
Latest
eleven_v3
74 languages, newest model.
74 languages
Flash v2.5
Fast
eleven_flash_v2_5
Ultra-fast, cost-efficient. 32 languages.
32 languages
Turbo v2.5
eleven_turbo_v2_5
Low-latency streaming. 32 languages.
32 languages
📥 You Give
📝Text to Speak 🎙️Voice Selection 🎭Emotion (optional) 🌍Language
AI Magic
elevenlabs
🎵 You Get
🎵 Audio
Modes
Speech
Speech + Timing
Dialogue
Dialogue + Timing
Output formats
MP3 WAV PCM OPUS
🌍
74 languages
Model maximum
📝
5,000 chars
Max text per request
🗣️
10 inputs
10 voices
Speed 0.5-2x
Playback rate
🎯
Stability 0-1
Voice consistency

💰 Text to Speech — Pricing

Estimated cost
Failed jobs are automatically refunded

🗣️ テキスト読み上げ

テキスト読み上げを試す