音频 | Mistral AI

🎙️Voxtral 文本转语音

生成自然的多语言语音，支持法语口音和语音克隆

音频 Voxtral Mini TTS MINI Mistral AI

Voxtral 文本转语音使用 Mistral AI 将书面文本转换为自然听起来的语音。输入或粘贴最多 10,000 个字符，选择一个声音，AI 生成听起来像真实人类说话的音频——具有自然的节奏、语调和呼吸。

三种语音模式为您提供完全的灵活性。预设语音是专业策划的语音，所有人都可以使用——在选择之前浏览和预览它们。我的语音显示您个人克隆的语音，包括您使用语音克隆创建的特定角色语音。上传模式让您进行即时零样本克隆——放入 2 到 60 秒的音频参考，AI 模仿该声音进行此生成，而不永久保存。

链接一个角色以自动首先查看他们专用的语音。该工具自动检测您文本中的语言，支持法语、英语、西班牙语、德语、葡萄牙语、意大利语、荷兰语、印地语和阿拉伯语的母语质量支持。法语口音质量尤其强——Mistral 是一家法国 AI 实验室。

输出格式包括 MP3、WAV、FLAC 和 Opus。内置成本估算器在您提交之前，基于字符数准确显示生成将花费多少积分。结果直接保存到您的图库，并可以作为 Avatar、Lip Sync 或内容管道配音工作流程的音频输入。

这是为您的 AI 角色在所有内容中提供一致、可识别的声音的语音引擎——社交帖子、视频、播客和配音翻译。

最佳效果

🎧

首先预览预设语音

在生成之前，听听每个预设语音。不同的声音适合不同的内容——有些听起来温暖和对话，其他则听起来专业和清晰。找到与您的角色个性匹配的声音。

✍️

标点符号控制节奏

逗号产生短暂停顿，句号产生较长的停顿，省略号产生拖延的犹豫。准确写下您希望它被说出的文本——标点符号是您控制节奏和表达的主要工具。

🎤

克隆您的角色声音

使用语音克隆从 2–60 秒的音频样本创建一个永久的声音，然后在我的语音下选择它。一旦克隆，您的角色每次都用相同的声音说话——跨所有工具和语言。

⚡

上传模式进行快速测试

上传模式让您测试一个声音参考而不永久克隆它。放入任何音频片段并立即生成语音。如果您喜欢结果，请前往语音克隆以永久保存该声音。

💰

检查成本估算器

成本估算器在您输入时实时更新。较长的文本成本更高——如果您正在测试提示，请先尝试短摘录以验证声音是否正确，然后再生成完整文本。

🔗

将音频输入其他工具

生成的语音可以作为 Avatar（照片转说话视频）、Lip Sync（让视频中的某人说话）和内容管道配音系统的直接输入。这是语音管道的第一步。

指南

🎙️

试用 Voxtral 文本转语音

无需订阅。按使用量付费。

开始创作 →

🎙️Voxtral 文本转语音

最佳效果

指南

Voxtral Text to Speech — Technical Guide

试用 Voxtral 文本转语音

更多 Mistral AI 工具

探索其他工具