Home ИИ-инструменты ИИ-гайды ИИ-модели ИИ-создатели 🛒 Купить Начать
🎙️ Voxtral ⏱ 4 min read 🎙️ Voxtral Text to Speech

Voxtral Text to Speech — Technical Guide

Генерируйте естественную многоязычную речь с поддержкой родного французского акцента и клонирования голоса

🎙️

Voxtral Text to Speech

mistral audio /app/voxtral-tts →
Генерируйте естественную многоязычную речь с поддержкой родного французского акцента и клонирования голоса
Voxtral Text to Speech преобразует написанный текст в естественно звучащую речь с использованием Mistral AI. Введите или вставьте до 10,000 символов, выберите голос, и ИИ генерирует аудио, которое звучит как настоящий человек, говорящий — с естественным ритмом, интонацией и дыханием.

Три режима голоса предоставляют вам полную гибкость. Предустановленные голоса — это профессионально подобранные голоса, доступные всем — просматривайте и прослушивайте их перед выбором. Мои голоса показывают ваши персонально клонированные голоса, включая голоса, созданные вами с помощью Voice Clone. Режим загрузки позволяет вам мгновенно клонировать голос без предварительного сохранения — просто загрузите аудио длительностью от 2 до 60 секунд, и ИИ имитирует этот голос для данного поколения без постоянного сохранения.

Свяжите персонажа, чтобы автоматически увидеть их специальные голоса в первую очередь. Инструмент автоматически определяет язык вашего текста, с поддержкой родного качества для французского, английского, испанского, немецкого, португальского, итальянского, голландского, хинди и арабского. Качество французского акцента особенно высоко — Mistral является французской ИИ-лабораторией.

Форматы вывода включают MP3, WAV, FLAC и Opus. Встроенный оценщик стоимости показывает, сколько кредитов будет стоить генерация, прежде чем вы отправите, на основе количества символов. Результаты сохраняются непосредственно в вашей галерее и могут использоваться в качестве аудио ввода для Avatar, Lip Sync или рабочего процесса дубляжа контента.

Это голосовой движок для обеспечения вашему ИИ-персонажу последовательного, узнаваемого голоса во всех их материалах — социальных постах, видео, подкастах и дубляже переводов.
✦ Best Results Tips
🎧 Предварительный просмотр предустановленных голосов
Послушайте каждый предустановленный голос перед генерацией. Разные голоса подходят для разного контента — некоторые звучат тепло и разговорно, другие звучат профессионально и четко. Найдите тот, который соответствует личности вашего персонажа.
✍️ Пунктуация контролирует ритм
Запятые создают короткие паузы, точки создают более длинные, многоточия создают задержку. Пишите текст так, как вы хотите, чтобы его произнесли — пунктуация является вашим основным инструментом для контроля ритма и подачи.
🎤 Клонируйте голос вашего персонажа
Используйте Voice Clone, чтобы создать постоянный голос из аудиосэмпла длительностью 2–60 секунд, затем выберите его здесь в разделе Мои голоса. После клонирования ваш персонаж говорит тем же голосом каждый раз — во всех инструментах и языках.
Режим загрузки для быстрых тестов
Режим загрузки позволяет вам протестировать голосовой референс без постоянного клонирования. Загрузите любой аудиоклип и мгновенно сгенерируйте речь. Если вам нравится результат, перейдите в Voice Clone, чтобы сохранить этот голос навсегда.
💰 Проверьте оценщик стоимости
Оценщик стоимости обновляется в реальном времени по мере ввода текста. Более длинный текст стоит дороже — если вы тестируете подсказку, попробуйте сначала короткий отрывок, чтобы убедиться, что голос звучит правильно, прежде чем генерировать полный текст.
🔗 Подключите аудио к другим инструментам
Сгенерированная речь работает как прямой ввод для Avatar (фото в говорящее видео), Lip Sync (заставьте кого-то в видео говорить) и систему дубляжа контента. Это первый шаг в голосовом процессе.

Voxtral TTS — Available Models

Voxtral Mini TTS
MINI Default
voxtral-mini-tts-2603
Fast, high-quality TTS. Beats ElevenLabs Flash v2.5 in human evals. Native French.
Mode: tts

💰 Voxtral TTS — Pricing

Estimated cost
Failed jobs are automatically refunded

🎙️ Voxtral Text to Speech

Попробовать Voxtral Text to Speech