🎙️ ElevenLabs ⏱ 6 min read 🗣️ Texte en parole

Text to Speech — Technical Guide

Tapez n'importe quel texte et écoutez-le prononcé dans une voix AI naturelle — choisissez parmi des milliers de voix dans plus de 30 langues, créez des dialogues multi-voix et contrôlez l'émotion, la vitesse et le style de livraison

🗣️

Text to Speech

elevenlabs audio /app/elevenlabs-tts →

Texte en parole transforme les mots écrits en audio au son naturel. Tapez ce que vous voulez dire, choisissez une voix dans une bibliothèque de milliers, et l'IA génère une parole qui ressemble à celle d'une vraie personne — avec un rythme naturel, des pauses et de l'expression. Prend en charge plus de 30 langues.

Quatre modes couvrent différents besoins. Créer une parole génère de l'audio à partir de texte avec une seule voix — l'utilisation la plus simple et la plus courante. La parole avec timing ajoute des horodatages au niveau des caractères à la sortie, utile pour synchroniser l'audio avec des sous-titres ou des animations. Créer un dialogue vous permet d'assigner différentes voix à différentes lignes, produisant une conversation multi-voix avec jusqu'à 10 intervenants uniques. Dialogue avec horodatages combine multi-voix avec des données de timing pour des flux de travail de synchronisation précis.

Le contrôle de l'émotion et de la livraison rend la parole humaine. Sur le dernier modèle v3, les balises audio vous permettent d'insérer des directions directement dans le texte — marquez un mot comme chuchoté, excité ou soupiré, et la voix répond naturellement. Les curseurs de vitesse et de stabilité affinent la rapidité de la voix et sa constance.

L'audio généré fonctionne de manière autonome pour les podcasts, les voix off et la narration, ou alimente directement d'autres outils — utilisez-le comme entrée audio pour Avatar (photo en vidéo parlante) ou Lip Sync (faites parler quelqu'un dans une vidéo). C'est ainsi que vous donnez une voix à votre personnage AI dans tout leur contenu.

✦ Best Results Tips

🎧 Aperçu des voix avant de générer

Parcourez la bibliothèque de voix et écoutez des aperçus avant de vous engager. Différentes voix excellent dans différents contenus — certaines sonnent chaleureuses et conversationnelles, d'autres sonnent autoritaires et professionnelles. Trouvez celle qui correspond à votre personnage.

✍️ Utilisez la ponctuation pour des pauses naturelles

Les virgules créent de courtes pauses, les points créent des pauses plus longues, les ellipses créent une hésitation prolongée. Écrivez le texte comme vous souhaitez qu'il soit prononcé — la ponctuation est le moyen le plus simple de contrôler le rythme et le tempo.

🎭 Balises audio pour l'émotion (v3 uniquement)

Sur le modèle v3, insérez des balises comme [excité], [chuchote], [soupir] directement dans votre texte pour changer la livraison en milieu de phrase. Cliquez sur n'importe quelle pilule de balise sur la page pour l'insérer à la position de votre curseur.

💬 Mode dialogue pour les conversations

Utilisez Créer un dialogue lorsque vous avez besoin de plusieurs voix — chaque ligne obtient sa propre attribution de voix. Jusqu'à 10 voix uniques par génération. Parfait pour un contenu de style podcast, des interviews ou des interactions entre personnages.

⚡ Flash pour la vitesse, Multilingue pour la qualité

Les modèles Flash et Turbo génèrent plus rapidement et coûtent moins cher — parfaits pour les brouillons et les tests. Les modèles multilingues v2 et v3 produisent la parole la plus naturelle et expressive — utilisez-les pour le contenu final que vous prévoyez de publier.

🔗 Alimentez l'audio dans Avatar ou Lip Sync

Générez la parole ici, puis utilisez le fichier audio comme entrée pour Avatar (transformez une photo en vidéo parlante) ou Lip Sync (faites parler quelqu'un dans une vidéo existante). C'est le pipeline vocal pour votre personnage AI.

Text to Speech — Available Models

Multilingual v2

Default Default

eleven_multilingual_v2

29 languages, best quality for non-English. Default for dubbing.

29 languages

v3 — Latest

Latest

eleven_v3

74 languages, newest model.

74 languages

Flash v2.5

Fast

eleven_flash_v2_5

Ultra-fast, cost-efficient. 32 languages.

32 languages

Turbo v2.5

eleven_turbo_v2_5

Low-latency streaming. 32 languages.

32 languages

📥 You Give

📝Text to Speak 🎙️Voice Selection 🎭Emotion (optional) 🌍Language

✨

AI Magic

elevenlabs

🎵 You Get

🎵 Audio

Modes

Speech

Speech + Timing

Dialogue

Dialogue + Timing

Output formats

MP3 WAV PCM OPUS

🌍

74 languages

Model maximum

📝

5,000 chars

Max text per request

🗣️

10 inputs

10 voices

⚡

Speed 0.5-2x

Playback rate

🎯

Stability 0-1

Voice consistency

💰 Text to Speech — Pricing

Estimated cost

—

Failed jobs are automatically refunded