音频 | ElevenLabs TTS
文本转语音
输入任何文本并听到它以自然的AI声音被朗读——从30多种语言中的数千种声音中选择,创建多声对话,并控制情感、速度和表达风格
音频
Multilingual v2 Default
v3 — Latest Latest
Flash v2.5 Fast
Turbo v2.5
ElevenLabs TTS
文本转语音将书面文字转换为自然听起来的音频。输入您想要说的内容,从数千种声音的库中选择一个,AI生成的语音听起来像一个真实的人——具有自然的节奏、停顿和表情。支持超过30种语言。
四种模式满足不同需求。创建语音从文本生成音频,使用单一声音——最简单和最常见的用法。带时间标记的语音为输出添加字符级时间戳,方便将音频与字幕或动画同步。创建对话让您为不同的台词分配不同的声音,产生最多10个独特发言者的多声对话。带时间戳的对话将多声与时间数据结合,适用于精确的同步工作流程。
情感和表达控制使语音听起来更人性化。在最新的v3模型上,音频标签让您可以直接在文本中插入指令——将一个词标记为低语、兴奋或叹息,声音会自然响应。速度和稳定性滑块微调声音的说话速度和一致性。
生成的音频可独立用于播客、配音和叙述,或直接输入其他工具——将其用作Avatar(照片转说话视频)或Lip Sync(让视频中的某人说话)的音频输入。这就是您为AI角色赋予声音的方式。
四种模式满足不同需求。创建语音从文本生成音频,使用单一声音——最简单和最常见的用法。带时间标记的语音为输出添加字符级时间戳,方便将音频与字幕或动画同步。创建对话让您为不同的台词分配不同的声音,产生最多10个独特发言者的多声对话。带时间戳的对话将多声与时间数据结合,适用于精确的同步工作流程。
情感和表达控制使语音听起来更人性化。在最新的v3模型上,音频标签让您可以直接在文本中插入指令——将一个词标记为低语、兴奋或叹息,声音会自然响应。速度和稳定性滑块微调声音的说话速度和一致性。
生成的音频可独立用于播客、配音和叙述,或直接输入其他工具——将其用作Avatar(照片转说话视频)或Lip Sync(让视频中的某人说话)的音频输入。这就是您为AI角色赋予声音的方式。
Available Models
Multilingual v2 Default
eleven_multilingual_v2
29 languages, best quality for non-English. Default for dubbing.
v3 — Latest Latest
eleven_v3
74 languages, newest model.
Flash v2.5 Fast
eleven_flash_v2_5
Ultra-fast, cost-efficient. 32 languages.
Turbo v2.5
eleven_turbo_v2_5
Low-latency streaming. 32 languages.
最佳效果
生成前预览声音
浏览声音库并在提交之前听取预览。不同的声音在不同的内容中表现出色——有些听起来温暖而对话性,其他则听起来权威而专业。找到与您角色匹配的声音。
使用标点符号进行自然停顿
逗号产生短暂停顿,句号产生较长的停顿,省略号产生拖延的犹豫。按照您希望的方式书写文本——标点符号是控制节奏和速度的最简单方法。
情感音频标签(仅限v3)
在v3模型上,直接在文本中插入标签,如[兴奋]、[低语]、[叹息],以在句子中改变表达。点击页面上的任何标签药丸,将其插入到光标位置。
对话模式用于对话
当您需要多个声音时使用创建对话——每一行都有自己的声音分配。每次生成最多10个独特声音。非常适合播客风格的内容、访谈或角色互动。
闪电速度,多语言质量
闪电和涡轮模型生成速度更快且成本更低——非常适合草稿和测试。多语言v2和v3产生最自然、最富表现力的语音——将它们用于您计划发布的最终内容。
将音频输入Avatar或Lip Sync
在这里生成语音,然后将音频文件用作Avatar(将照片转为说话视频)或Lip Sync(让现有视频中的某人说话)的输入。这是您AI角色的声音管道。
指南
Text to Speech
🎵
Audio
Text to Speech — Technical Guide
Type any text and hear it spoken in a natural AI voice — choose from thousands of voices in 30+ languages, create multi-voice dialogues, and control emotion, speed, and delivery style