🎙️ Voxtral ⏱ 3 min read 🎤 Voxtral Voice Clone

Voxtral Voice Clone — Technical Guide

Клонируйте любой голос за 2-3 секунды аудио для генерации речи с характерной последовательностью

🎤

Voxtral Voice Clone

mistral audio /app/voxtral-voice →

Клонируйте любой голос за 2-3 секунды аудио для генерации речи с характерной последовательностью

Voice Clone создает постоянную копию любого голоса из короткого аудиофрагмента. Запишите себя, загрузите голосовое сообщение или используйте любой аудиоклип от 2 до 60 секунд — ИИ анализирует вокальные характеристики и создает повторно используемый голосовой идентификатор, который можно использовать во всех инструментах генерации речи.

Клонированный голос захватывает тон, акцент, высоту и стиль речи. После создания он появляется в разделе Мои голоса Voxtral TTS и может быть связан с конкретным персонажем — так что этот персонаж всегда говорит одним и тем же голосом во всем своем контенте.

Свяжите персонажа во время создания, чтобы автоматически заполнить имя голоса, пол, возраст и черты личности из профиля персонажа. Или установите их вручную — назовите голос описательно (например, Софи - французская женщина или Маркус - глубокий рассказчик), чтобы вы могли легко его идентифицировать позже. Добавьте языковые метки, чтобы указать, на каких языках этот голос работает лучше всего.

Ваши клонированные голоса являются частными — только вы можете видеть и использовать их. Каждый голос хранит оригинальный аудиофрагмент с предварительным просмотром звуковой волны, чтобы вы всегда могли проверить, на какой записи он основан. Редактируйте метаданные в любое время — переименовывайте, изменяйте языковые метки или обновляйте связанного персонажа.

Это основа последовательности голосов персонажа. Клонируйте один раз, используйте повсюду — в TTS для повествования, в контентном потоке для многоязычного дубляжа и в любом рабочем процессе, где вашему персонажу нужно говорить.

✦ Best Results Tips

🎙️ Чистый звук, минимальный фоновый шум

Записывайте в тихой обстановке. Фоновая музыка, эхо или окружающий шум попадают в клонированный голос. Чистая запись дает чистый клон — используйте хороший микрофон и тихую комнату.

⏱️ 10–30 секунд — это оптимальное время

Mistral принимает 2–60 секунд, но 10–30 секунд естественной речи дает лучший баланс. Слишком коротко, и ИИ не хватает вокального разнообразия для обучения. Слишком долго добавляет убывающую отдачу и время загрузки.

🗣️ Говорите естественно, а не роботизированно

Читайте абзац разговорным тоном — варьируйте высоту, делайте паузы естественно, используйте нормальную интонацию. ИИ учится на вашем стиле подачи. Монотонные образцы создают монотонные клоны.

👤 Связать с персонажем

Связывание голоса с персонажем автоматически заполняет имя, пол, возраст и черты. Это также делает голос первым, когда этот персонаж выбран в TTS — поддерживая ваш рабочий процесс быстрым и организованным.

🏷️ Назовите голоса описательно

Используйте имена, такие как Софи - Теплая французская или Маркус - Глубокий английский, а не Голос 1. Когда у вас есть несколько клонированных голосов, четкие имена экономят время на поиск нужного.

🔒 Ваши голоса являются частными

Клонированные голоса видны только вам. Другие пользователи не могут видеть, получать доступ или использовать ваши голосовые клоны. Только голоса, отмеченные как предустановки администратором, видны всем пользователям.