🎙️ Voxtral ⏱ 4 min read 🎙️ Voxtral Text to Speech

Voxtral Text to Speech — Technical Guide

Gere fala multilíngue natural com suporte a sotaque francês nativo e clonagem de voz

🎙️

Voxtral Text to Speech

mistral audio /app/voxtral-tts →

Gere fala multilíngue natural com suporte a sotaque francês nativo e clonagem de voz

Voxtral Text to Speech converte texto escrito em fala com som natural usando a IA Mistral. Digite ou cole até 10.000 caracteres, selecione uma voz e a IA gera áudio que soa como uma pessoa real falando — com ritmo, entonação e respiração naturais.

Três modos de voz oferecem total flexibilidade. Vozes pré-definidas são vozes profissionalmente selecionadas disponíveis para todos — navegue e visualize antes de escolher. Minhas Vozes mostra suas vozes clonadas pessoalmente, incluindo vozes específicas de personagens que você criou com Voice Clone. O modo de upload permite que você faça clonagem instantânea sem prévia — insira uma referência de áudio de 2 a 60 segundos e a IA imita essa voz para esta geração sem salvá-la permanentemente.

Vincule um personagem para ver automaticamente suas vozes dedicadas primeiro. A ferramenta detecta automaticamente o idioma do seu texto, com suporte de qualidade nativa para francês, inglês, espanhol, alemão, português, italiano, holandês, hindi e árabe. A qualidade do sotaque francês é particularmente forte — a Mistral é um laboratório de IA francês.

Os formatos de saída incluem MP3, WAV, FLAC e Opus. Um estimador de custo embutido mostra exatamente quantos créditos a geração custará antes de você enviar, com base na contagem de caracteres. Os resultados são salvos diretamente na sua galeria e podem ser usados como entrada de áudio para Avatar, Lip Sync ou o fluxo de trabalho de dublagem do pipeline de conteúdo.

Este é o motor de voz para dar ao seu personagem de IA uma voz consistente e reconhecível em todo o seu conteúdo — postagens sociais, vídeos, podcasts e traduções dubladas.

✦ Best Results Tips

🎧 Visualize as Vozes Pré-definidas Primeiro

Ouça cada voz pré-definida antes de gerar. Vozes diferentes se adequam a conteúdos diferentes — algumas soam calorosas e conversacionais, outras soam profissionais e claras. Encontre a que combina com a personalidade do seu personagem.

✍️ Controles de Pontuação Controlam o Ritmo

Vírgulas criam pausas curtas, pontos criam pausas mais longas, reticências criam uma hesitação prolongada. Escreva o texto exatamente como você deseja que seja falado — a pontuação é sua ferramenta principal para controlar o ritmo e a entrega.

🎤 Clone a Voz do Seu Personagem

Use o Voice Clone para criar uma voz permanente a partir de uma amostra de áudio de 2 a 60 segundos, depois selecione-a aqui em Minhas Vozes. Uma vez clonada, seu personagem fala com a mesma voz todas as vezes — em todas as ferramentas e idiomas.

⚡ Modo de Upload para Testes Rápidos

O modo de upload permite que você teste uma referência de voz sem cloná-la permanentemente. Insira qualquer clipe de áudio e gere fala instantaneamente. Se você gostar do resultado, vá para Voice Clone para salvar essa voz permanentemente.

💰 Verifique o Estimador de Custos

O estimador de custos é atualizado em tempo real enquanto você digita. Textos mais longos custam mais — se você estiver testando um prompt, tente um breve trecho primeiro para verificar se a voz soa certa antes de gerar o texto completo.

🔗 Alimente Áudio em Outras Ferramentas

A fala gerada funciona como entrada direta para Avatar (foto para vídeo falante), Lip Sync (fazer alguém em um vídeo falar) e o sistema de dublagem do pipeline de conteúdo. Este é o primeiro passo no pipeline de voz.

Voxtral TTS — Available Models

Voxtral Mini TTS

MINI Default

voxtral-mini-tts-2603

Fast, high-quality TTS. Beats ElevenLabs Flash v2.5 in human evals. Native French.

Mode: tts

💰 Voxtral TTS — Pricing

Estimated cost

—

Failed jobs are automatically refunded