Home Ferramentas IA Guias IA Modelos IA Criadores IA 🛒 Comprar Começar
🎙️ ElevenLabs ⏱ 6 min read 🗣️ Texto para Fala

Text to Speech — Technical Guide

Digite qualquer texto e ouça-o falado em uma voz natural de IA — escolha entre milhares de vozes em mais de 30 idiomas, crie diálogos com múltiplas vozes e controle emoção, velocidade e estilo de entrega

🗣️

Text to Speech

elevenlabs audio /app/elevenlabs-tts →
Digite qualquer texto e ouça-o falado em uma voz natural de IA — escolha entre milhares de vozes em mais de 30 idiomas, crie diálogos com múltiplas vozes e controle emoção, velocidade e estilo de entrega
Texto para Fala transforma palavras escritas em áudio com som natural. Digite o que você quer que seja dito, escolha uma voz de uma biblioteca de milhares e a IA gera uma fala que soa como uma pessoa real — com ritmo, pausas e expressão naturais. Suporta mais de 30 idiomas.

Quatro modos cobrem diferentes necessidades. Criar Fala gera áudio a partir de texto com uma única voz — o uso mais simples e comum. Fala com Tempo adiciona timestamps em nível de caractere à saída, útil para sincronizar áudio com legendas ou animações. Criar Diálogo permite que você atribua vozes diferentes a diferentes linhas, produzindo uma conversa com múltiplas vozes com até 10 falantes únicos. Diálogo com Timestamps combina múltiplas vozes com dados de tempo para fluxos de trabalho de sincronização precisos.

Controle de emoção e entrega faz a fala parecer humana. No modelo mais recente v3, tags de áudio permitem que você insira direções diretamente no texto — marque uma palavra como sussurrada, animada ou suspirada, e a voz responde naturalmente. Deslizadores de velocidade e estabilidade ajustam a rapidez com que a voz fala e quão consistente ela permanece.

O áudio gerado funciona de forma independente para podcasts, narrações e voiceovers, ou se integra diretamente a outras ferramentas — use-o como entrada de áudio para Avatar (foto para vídeo falante) ou Lip Sync (faça alguém em um vídeo falar isso). É assim que você dá uma voz ao seu personagem de IA em todo o seu conteúdo.
✦ Best Results Tips
🎧 Pré-visualizar Vozes Antes de Gerar
Navegue pela biblioteca de vozes e ouça prévias antes de se comprometer. Diferentes vozes se destacam em diferentes conteúdos — algumas soam calorosas e conversacionais, outras soam autoritárias e profissionais. Encontre a que combina com seu personagem.
✍️ Use Pontuação para Pausas Naturais
Vírgulas criam pausas curtas, pontos criam pausas mais longas, reticências criam uma hesitação prolongada. Escreva o texto da maneira que você quer que seja falado — a pontuação é a maneira mais fácil de controlar ritmo e cadência.
🎭 Tags de Áudio para Emoção (apenas v3)
No modelo v3, insira tags como [animado], [sussurra], [suspiro] diretamente no seu texto para mudar a entrega no meio da frase. Clique em qualquer pílula de tag na página para inseri-la na posição do seu cursor.
💬 Modo Diálogo para Conversas
Use Criar Diálogo quando precisar de múltiplas vozes — cada linha recebe sua própria atribuição de voz. Até 10 vozes únicas por geração. Perfeito para conteúdo estilo podcast, entrevistas ou interações de personagens.
Flash para Velocidade, Multilíngue para Qualidade
Modelos Flash e Turbo geram mais rápido e custam menos — ótimos para rascunhos e testes. Multilíngue v2 e v3 produzem a fala mais natural e expressiva — use-os para conteúdo final que você planeja publicar.
🔗 Alimente o Áudio em Avatar ou Lip Sync
Gere fala aqui, depois use o arquivo de áudio como entrada para Avatar (transforme uma foto em um vídeo falante) ou Lip Sync (faça alguém em um vídeo existente falar isso). Este é o pipeline de voz para o seu personagem de IA.

Text to Speech — Available Models

Multilingual v2
Default Default
eleven_multilingual_v2
29 languages, best quality for non-English. Default for dubbing.
29 languages
v3 — Latest
Latest
eleven_v3
74 languages, newest model.
74 languages
Flash v2.5
Fast
eleven_flash_v2_5
Ultra-fast, cost-efficient. 32 languages.
32 languages
Turbo v2.5
eleven_turbo_v2_5
Low-latency streaming. 32 languages.
32 languages
📥 You Give
📝Text to Speak 🎙️Voice Selection 🎭Emotion (optional) 🌍Language
AI Magic
elevenlabs
🎵 You Get
🎵 Audio
Modes
Speech
Speech + Timing
Dialogue
Dialogue + Timing
Output formats
MP3 WAV PCM OPUS
🌍
74 languages
Model maximum
📝
5,000 chars
Max text per request
🗣️
10 inputs
10 voices
Speed 0.5-2x
Playback rate
🎯
Stability 0-1
Voice consistency

💰 Text to Speech — Pricing

Estimated cost
Failed jobs are automatically refunded

🗣️ Texto para Fala

Experimentar Texto para Fala