Home AI工具 AI指南 AI模型 AI创作者 🛒 购买 立即开始
🎙️ Voxtral ⏱ 3 min read 🎤 Voxtral Voice Clone

Voxtral Voice Clone — Technical Guide

从2-3秒的音频中克隆任何声音,以生成角色一致的语音

🎤

Voxtral Voice Clone

mistral audio /app/voxtral-voice →
从2-3秒的音频中克隆任何声音,以生成角色一致的语音
Voice Clone 从短音频样本中创建任何声音的永久副本。录制自己,上传语音备忘录,或使用任何2到60秒之间的音频片段——AI分析声音特征并创建一个可重用的声音ID,可以在所有语音生成工具中使用。

克隆的声音捕捉音调、口音、音高和说话风格。一旦创建,它将出现在Voxtral TTS的“我的声音”部分,并可以链接到特定角色——这样该角色在所有内容中始终使用相同的声音。

在创建期间链接角色,以自动填写声音名称、性别、年龄和个性特征。或者手动设置这些——为声音命名(如Sophie - 法国女性或Marcus - 深沉叙述者),以便您以后可以轻松识别。添加语言标签以指示该声音最擅长处理哪些语言。

您的克隆声音是私密的——只有您可以看到和使用它们。每个声音都存储原始音频样本及其波形预览,以便您始终可以验证其基于哪个录音。随时编辑元数据——重命名、更改语言标签或更新链接的角色。

这是角色声音一致性的基础。克隆一次,随处使用——在TTS中进行叙述,在内容管道中进行多语言配音,以及在任何需要角色发言的工作流程中。
✦ Best Results Tips
🎙️ 清晰的音频,最小的背景噪音
在安静的环境中录制。背景音乐、回声或环境噪音会被融入克隆的声音中。干净的录音会产生干净的克隆——使用合适的麦克风和安静的房间。
⏱️ 10-30秒是最佳时长
Mistral接受2-60秒,但10-30秒的自然语音提供最佳平衡。太短,AI缺乏可供学习的声音变化。太长则会导致收益递减和上传时间增加。
🗣️ 自然地说,而不是机械地说
以对话的方式阅读一段文字——变化音调,自然停顿,使用正常的表达。AI从您的表达风格中学习。单调的样本会产生单调的克隆。
👤 链接到角色
将声音链接到角色会自动填写名称、性别、年龄和特征。当在TTS中选择该角色时,它还会使声音优先出现——保持您的工作流程快速且有序。
🏷️ 为声音命名时要描述性
使用像Sophie - 温暖的法语或Marcus - 深沉的英语这样的名称,而不是声音1。当您有多个克隆声音时,清晰的名称可以节省找到正确声音的时间。
🔒 您的声音是私密的
克隆的声音仅对您可见。其他用户无法看到、访问或使用您的声音克隆。只有管理员标记为预设的声音对所有用户可见。

🎤 Voxtral Voice Clone

试用 Voxtral Voice Clone