🎙️ Voxtral ⏱ 3 min read 🎤 Voxtral Voice Clone

Voxtral Voice Clone — Technical Guide

从2-3秒的音频中克隆任何声音，以生成角色一致的语音

🎤

Voxtral Voice Clone

mistral audio /app/voxtral-voice →

从2-3秒的音频中克隆任何声音，以生成角色一致的语音

Voice Clone 从短音频样本中创建任何声音的永久副本。录制自己，上传语音备忘录，或使用任何2到60秒之间的音频片段——AI分析声音特征并创建一个可重用的声音ID，可以在所有语音生成工具中使用。

克隆的声音捕捉音调、口音、音高和说话风格。一旦创建，它将出现在Voxtral TTS的“我的声音”部分，并可以链接到特定角色——这样该角色在所有内容中始终使用相同的声音。

在创建期间链接角色，以自动填写声音名称、性别、年龄和个性特征。或者手动设置这些——为声音命名（如Sophie - 法国女性或Marcus - 深沉叙述者），以便您以后可以轻松识别。添加语言标签以指示该声音最擅长处理哪些语言。

您的克隆声音是私密的——只有您可以看到和使用它们。每个声音都存储原始音频样本及其波形预览，以便您始终可以验证其基于哪个录音。随时编辑元数据——重命名、更改语言标签或更新链接的角色。

这是角色声音一致性的基础。克隆一次，随处使用——在TTS中进行叙述，在内容管道中进行多语言配音，以及在任何需要角色发言的工作流程中。

✦ Best Results Tips

🎙️ 清晰的音频，最小的背景噪音

在安静的环境中录制。背景音乐、回声或环境噪音会被融入克隆的声音中。干净的录音会产生干净的克隆——使用合适的麦克风和安静的房间。

⏱️ 10-30秒是最佳时长

Mistral接受2-60秒，但10-30秒的自然语音提供最佳平衡。太短，AI缺乏可供学习的声音变化。太长则会导致收益递减和上传时间增加。

🗣️ 自然地说，而不是机械地说

以对话的方式阅读一段文字——变化音调，自然停顿，使用正常的表达。AI从您的表达风格中学习。单调的样本会产生单调的克隆。

👤 链接到角色

将声音链接到角色会自动填写名称、性别、年龄和特征。当在TTS中选择该角色时，它还会使声音优先出现——保持您的工作流程快速且有序。

🏷️ 为声音命名时要描述性

使用像Sophie - 温暖的法语或Marcus - 深沉的英语这样的名称，而不是声音1。当您有多个克隆声音时，清晰的名称可以节省找到正确声音的时间。

🔒 您的声音是私密的

克隆的声音仅对您可见。其他用户无法看到、访问或使用您的声音克隆。只有管理员标记为预设的声音对所有用户可见。