🎙️ ElevenLabs ⏱ 6 min read 🗣️ Texto para Fala

Text to Speech — Technical Guide

Digite qualquer texto e ouça-o falado em uma voz natural de IA — escolha entre milhares de vozes em mais de 30 idiomas, crie diálogos com múltiplas vozes e controle emoção, velocidade e estilo de entrega

🗣️

Text to Speech

elevenlabs audio /app/elevenlabs-tts →

Texto para Fala transforma palavras escritas em áudio com som natural. Digite o que você quer que seja dito, escolha uma voz de uma biblioteca de milhares e a IA gera uma fala que soa como uma pessoa real — com ritmo, pausas e expressão naturais. Suporta mais de 30 idiomas.

Quatro modos cobrem diferentes necessidades. Criar Fala gera áudio a partir de texto com uma única voz — o uso mais simples e comum. Fala com Tempo adiciona timestamps em nível de caractere à saída, útil para sincronizar áudio com legendas ou animações. Criar Diálogo permite que você atribua vozes diferentes a diferentes linhas, produzindo uma conversa com múltiplas vozes com até 10 falantes únicos. Diálogo com Timestamps combina múltiplas vozes com dados de tempo para fluxos de trabalho de sincronização precisos.

Controle de emoção e entrega faz a fala parecer humana. No modelo mais recente v3, tags de áudio permitem que você insira direções diretamente no texto — marque uma palavra como sussurrada, animada ou suspirada, e a voz responde naturalmente. Deslizadores de velocidade e estabilidade ajustam a rapidez com que a voz fala e quão consistente ela permanece.

O áudio gerado funciona de forma independente para podcasts, narrações e voiceovers, ou se integra diretamente a outras ferramentas — use-o como entrada de áudio para Avatar (foto para vídeo falante) ou Lip Sync (faça alguém em um vídeo falar isso). É assim que você dá uma voz ao seu personagem de IA em todo o seu conteúdo.

✦ Best Results Tips

🎧 Pré-visualizar Vozes Antes de Gerar

Navegue pela biblioteca de vozes e ouça prévias antes de se comprometer. Diferentes vozes se destacam em diferentes conteúdos — algumas soam calorosas e conversacionais, outras soam autoritárias e profissionais. Encontre a que combina com seu personagem.

✍️ Use Pontuação para Pausas Naturais

Vírgulas criam pausas curtas, pontos criam pausas mais longas, reticências criam uma hesitação prolongada. Escreva o texto da maneira que você quer que seja falado — a pontuação é a maneira mais fácil de controlar ritmo e cadência.

🎭 Tags de Áudio para Emoção (apenas v3)

No modelo v3, insira tags como [animado], [sussurra], [suspiro] diretamente no seu texto para mudar a entrega no meio da frase. Clique em qualquer pílula de tag na página para inseri-la na posição do seu cursor.

💬 Modo Diálogo para Conversas

Use Criar Diálogo quando precisar de múltiplas vozes — cada linha recebe sua própria atribuição de voz. Até 10 vozes únicas por geração. Perfeito para conteúdo estilo podcast, entrevistas ou interações de personagens.

⚡ Flash para Velocidade, Multilíngue para Qualidade

Modelos Flash e Turbo geram mais rápido e custam menos — ótimos para rascunhos e testes. Multilíngue v2 e v3 produzem a fala mais natural e expressiva — use-os para conteúdo final que você planeja publicar.

🔗 Alimente o Áudio em Avatar ou Lip Sync

Gere fala aqui, depois use o arquivo de áudio como entrada para Avatar (transforme uma foto em um vídeo falante) ou Lip Sync (faça alguém em um vídeo existente falar isso). Este é o pipeline de voz para o seu personagem de IA.

Text to Speech — Available Models

Multilingual v2

Default Default

eleven_multilingual_v2

29 languages, best quality for non-English. Default for dubbing.

29 languages

v3 — Latest

Latest

eleven_v3

74 languages, newest model.

74 languages

Flash v2.5

Fast

eleven_flash_v2_5

Ultra-fast, cost-efficient. 32 languages.

32 languages

Turbo v2.5

eleven_turbo_v2_5

Low-latency streaming. 32 languages.

32 languages

📥 You Give

📝Text to Speak 🎙️Voice Selection 🎭Emotion (optional) 🌍Language

✨

AI Magic

elevenlabs

🎵 You Get

🎵 Audio

Modes

Speech

Speech + Timing

Dialogue

Dialogue + Timing

Output formats

MP3 WAV PCM OPUS

🌍

74 languages

Model maximum

📝

5,000 chars

Max text per request

🗣️

10 inputs

10 voices

⚡

Speed 0.5-2x

Playback rate

🎯

Stability 0-1

Voice consistency

💰 Text to Speech — Pricing

Estimated cost

—

Failed jobs are automatically refunded