🎙️ Voxtral ⏱ 4 min read 🎙️ Voxtral Text to Speech

Voxtral Text to Speech — Technical Guide

Генерируйте естественную многоязычную речь с поддержкой родного французского акцента и клонирования голоса

🎙️

Voxtral Text to Speech

mistral audio /app/voxtral-tts →

Voxtral Text to Speech преобразует написанный текст в естественно звучащую речь с использованием Mistral AI. Введите или вставьте до 10,000 символов, выберите голос, и ИИ генерирует аудио, которое звучит как настоящий человек, говорящий — с естественным ритмом, интонацией и дыханием.

Три режима голоса предоставляют вам полную гибкость. Предустановленные голоса — это профессионально подобранные голоса, доступные всем — просматривайте и прослушивайте их перед выбором. Мои голоса показывают ваши персонально клонированные голоса, включая голоса, созданные вами с помощью Voice Clone. Режим загрузки позволяет вам мгновенно клонировать голос без предварительного сохранения — просто загрузите аудио длительностью от 2 до 60 секунд, и ИИ имитирует этот голос для данного поколения без постоянного сохранения.

Свяжите персонажа, чтобы автоматически увидеть их специальные голоса в первую очередь. Инструмент автоматически определяет язык вашего текста, с поддержкой родного качества для французского, английского, испанского, немецкого, португальского, итальянского, голландского, хинди и арабского. Качество французского акцента особенно высоко — Mistral является французской ИИ-лабораторией.

Форматы вывода включают MP3, WAV, FLAC и Opus. Встроенный оценщик стоимости показывает, сколько кредитов будет стоить генерация, прежде чем вы отправите, на основе количества символов. Результаты сохраняются непосредственно в вашей галерее и могут использоваться в качестве аудио ввода для Avatar, Lip Sync или рабочего процесса дубляжа контента.

Это голосовой движок для обеспечения вашему ИИ-персонажу последовательного, узнаваемого голоса во всех их материалах — социальных постах, видео, подкастах и дубляже переводов.

✦ Best Results Tips

🎧 Предварительный просмотр предустановленных голосов

Послушайте каждый предустановленный голос перед генерацией. Разные голоса подходят для разного контента — некоторые звучат тепло и разговорно, другие звучат профессионально и четко. Найдите тот, который соответствует личности вашего персонажа.

✍️ Пунктуация контролирует ритм

Запятые создают короткие паузы, точки создают более длинные, многоточия создают задержку. Пишите текст так, как вы хотите, чтобы его произнесли — пунктуация является вашим основным инструментом для контроля ритма и подачи.

🎤 Клонируйте голос вашего персонажа

Используйте Voice Clone, чтобы создать постоянный голос из аудиосэмпла длительностью 2–60 секунд, затем выберите его здесь в разделе Мои голоса. После клонирования ваш персонаж говорит тем же голосом каждый раз — во всех инструментах и языках.

⚡ Режим загрузки для быстрых тестов

Режим загрузки позволяет вам протестировать голосовой референс без постоянного клонирования. Загрузите любой аудиоклип и мгновенно сгенерируйте речь. Если вам нравится результат, перейдите в Voice Clone, чтобы сохранить этот голос навсегда.

💰 Проверьте оценщик стоимости

Оценщик стоимости обновляется в реальном времени по мере ввода текста. Более длинный текст стоит дороже — если вы тестируете подсказку, попробуйте сначала короткий отрывок, чтобы убедиться, что голос звучит правильно, прежде чем генерировать полный текст.

🔗 Подключите аудио к другим инструментам

Сгенерированная речь работает как прямой ввод для Avatar (фото в говорящее видео), Lip Sync (заставьте кого-то в видео говорить) и систему дубляжа контента. Это первый шаг в голосовом процессе.

Voxtral TTS — Available Models

Voxtral Mini TTS

MINI Default

voxtral-mini-tts-2603

Fast, high-quality TTS. Beats ElevenLabs Flash v2.5 in human evals. Native French.

Mode: tts

💰 Voxtral TTS — Pricing

Estimated cost

—

Failed jobs are automatically refunded