🎙️ ElevenLabs ⏱ 6 min read 🗣️ Текст в речь

Text to Speech — Technical Guide

Введите любой текст и услышите его произнесенным естественным голосом ИИ — выберите из тысяч голосов на 30+ языках, создавайте много голосовые диалоги и контролируйте эмоции, скорость и стиль доставки

🗣️

Text to Speech

elevenlabs audio /app/elevenlabs-tts →

Текст в речь превращает написанные слова в естественно звучащий аудиофайл. Введите то, что хотите сказать, выберите голос из библиотеки тысяч, и ИИ генерирует речь, которая звучит как реальный человек — с естественным ритмом, паузами и выражением. Поддерживает более 30 языков.

Четыре режима охватывают различные потребности. Создание речи генерирует аудио из текста с одним голосом — самый простой и распространенный способ использования. Речь с таймингом добавляет временные метки на уровне персонажей в вывод, полезно для синхронизации аудио с субтитрами или анимациями. Создание диалога позволяет вам назначать разные голоса для разных строк, создавая много голосовой разговор с до 10 уникальными спикерами. Диалог с временными метками сочетает много голосов с данными тайминга для точных рабочих процессов синхронизации.

Контроль эмоций и доставки делает речь более человечной. На последней модели v3 аудиометки позволяют вам вставлять указания прямо в текст — отметьте слово как шепот, волнение или вздох, и голос реагирует естественно. Ползунки скорости и стабильности точно настраивают, как быстро говорит голос и насколько последовательно он остается.

Сгенерированное аудио работает самостоятельно для подкастов, озвучивания и повествования или напрямую подается в другие инструменты — используйте его как аудиовход для Аватара (фото в говорящее видео) или Синхронизации губ (заставьте кого-то в видео произнести это). Вот как вы даете вашему ИИ персонажу голос во всем их контенте.

✦ Best Results Tips

🎧 Предварительный просмотр голосов перед генерацией

Просмотрите библиотеку голосов и послушайте предварительные прослушивания перед тем, как сделать выбор. Разные голоса отлично подходят для разного контента — некоторые звучат тепло и разговорно, другие звучат авторитетно и профессионально. Найдите тот, который соответствует вашему персонажу.

✍️ Используйте знаки препинания для естественных пауз

Запятые создают короткие паузы, точки создают более длинные, многоточие создает запоздалое колебание. Напишите текст так, как вы хотите, чтобы его произнесли — знаки препинания — это самый простой способ контролировать ритм и темп.

🎭 Аудиометки для эмоций (только v3)

На модели v3 вставьте метки, такие как [волнение], [шепот], [вздох], прямо в ваш текст, чтобы изменить доставку в середине предложения. Нажмите на любую метку на странице, чтобы вставить ее в позицию курсора.

💬 Режим диалога для разговоров

Используйте Создание диалога, когда вам нужно несколько голосов — каждой строке назначается свой голос. До 10 уникальных голосов на генерацию. Идеально подходит для контента в стиле подкастов, интервью или взаимодействий персонажей.

⚡ Flash для скорости, Многоязычный для качества

Модели Flash и Turbo генерируют быстрее и стоят дешевле — отлично для черновиков и тестирования. Многоязычные v2 и v3 производят самую естественную, выразительную речь — используйте их для финального контента, который вы планируете опубликовать.

🔗 Подайте аудио в Аватар или Синхронизацию губ

Сгенерируйте речь здесь, затем используйте аудиофайл в качестве входа для Аватара (превратите фото в говорящее видео) или Синхронизации губ (заставьте кого-то в существующем видео произнести это). Это голосовой поток для вашего ИИ персонажа.

Text to Speech — Available Models

Multilingual v2

Default Default

eleven_multilingual_v2

29 languages, best quality for non-English. Default for dubbing.

29 languages

v3 — Latest

Latest

eleven_v3

74 languages, newest model.

74 languages

Flash v2.5

Fast

eleven_flash_v2_5

Ultra-fast, cost-efficient. 32 languages.

32 languages

Turbo v2.5

eleven_turbo_v2_5

Low-latency streaming. 32 languages.

32 languages

📥 You Give

📝Text to Speak 🎙️Voice Selection 🎭Emotion (optional) 🌍Language

✨

AI Magic

elevenlabs

🎵 You Get

🎵 Audio

Modes

Speech

Speech + Timing

Dialogue

Dialogue + Timing

Output formats

MP3 WAV PCM OPUS

🌍

74 languages

Model maximum

📝

5,000 chars

Max text per request

🗣️

10 inputs

10 voices

⚡

Speed 0.5-2x

Playback rate

🎯

Stability 0-1

Voice consistency

💰 Text to Speech — Pricing

Estimated cost

—

Failed jobs are automatically refunded