🎙️ ElevenLabs ⏱ 6 min read 🗣️ Tekstas į kalbą

Text to Speech — Technical Guide

Įveskite bet kokį tekstą ir išgirskite jį kalbant natūraliu AI balsu — pasirinkite iš tūkstančių balsų daugiau nei 30 kalbų, kurkite daugiabalsius dialogus ir kontroliuokite emocijas, greitį ir pristatymo stilių

🗣️

Text to Speech

elevenlabs audio /app/elevenlabs-tts →

Tekstas į kalbą paverčia rašytus žodžius natūraliai skambančiu garsu. Įveskite, ką norite pasakyti, pasirinkite balsą iš tūkstančių bibliotekos, o AI generuoja kalbą, kuri skamba kaip tikras žmogus — su natūraliu ritmu, pauzėmis ir išraiška. Palaiko daugiau nei 30 kalbų.

Keturi režimai apima skirtingus poreikius. Kalbos kūrimas generuoja garsą iš teksto su vienu balsu — paprasčiausias ir dažniausiai naudojamas. Kalba su laiku prideda simbolių lygio laiko žymes į išvestį, naudingas sinchronizuojant garsą su subtitrais ar animacijomis. Dialogo kūrimas leidžia priskirti skirtingus balsus skirtingoms eilutėms, sukuriant daugiabalsį pokalbį su iki 10 unikalių kalbėtojų. Dialogas su laiko žymėmis sujungia daugiabalsį su laiko duomenimis, kad būtų tikslūs sinchronizavimo procesai.

Emocijų ir pristatymo kontrolė leidžia kalbai jaustis žmogiškai. Naujausiame v3 modelyje garso žymės leidžia jums tiesiogiai įterpti nurodymus į tekstą — pažymėkite žodį kaip šnabždesį, susijaudinimą ar atodūsį, ir balsas reaguoja natūraliai. Greičio ir stabilumo slankikliai tiksliai reguliuoja, kaip greitai balsas kalba ir kaip nuoseklus jis išlieka.

Generuotas garsas veikia savarankiškai podcast'ams, balso įrašams ir naracijai, arba tiesiogiai įsilieja į kitas priemones — naudokite jį kaip garso įvestį Avatar (nuotrauką paversti kalbančiu video) arba Lip Sync (priversti ką nors vaizdo įraše kalbėti). Taip suteikiate savo AI personažui balsą visame jų turinyje.

✦ Best Results Tips

🎧 Peržiūrėkite balsus prieš generuodami

Naršykite balsų biblioteką ir klausykite peržiūrų prieš įsipareigodami. Skirtingi balsai puikiai tinka skirtingam turiniui — kai kurie skamba šiltai ir pokalbiškai, kiti skamba autoritetingai ir profesionaliai. Raskite tą, kuris atitinka jūsų personažą.

✍️ Naudokite skyrybos ženklus natūralioms pauzėms

Kableliai sukuria trumpas pauzes, taškai sukuria ilgesnes, ištraukos sukuria užsitęsusią dvejonę. Rašykite tekstą taip, kaip norite, kad jis būtų kalbamas — skyrybos ženklai yra lengviausias būdas kontroliuoti ritmą ir tempą.

🎭 Garso žymės emocijoms (tik v3)

V3 modelyje įterpkite žymes, tokias kaip [susijaudinęs], [šnabžda], [atodūsis], tiesiai į savo tekstą, kad pakeistumėte pristatymą viduryje sakinio. Spustelėkite bet kurią žymės piliulę puslapyje, kad įterptumėte ją savo žymeklio pozicijoje.

💬 Dialogo režimas pokalbiams

Naudokite Dialogo kūrimą, kai jums reikia kelių balsų — kiekviena eilutė gauna savo balsą. Iki 10 unikalių balsų kiekvienai generacijai. Puikiai tinka podcast'ams, interviu ar personažų sąveikai.

⚡ Greitis su Flash, kokybė su Multilingual

Flash ir Turbo modeliai generuoja greičiau ir kainuoja mažiau — puikiai tinka juodraščiams ir testavimui. Multilingual v2 ir v3 sukuria natūraliausią, išraiškingą kalbą — naudokite juos galutiniam turiniui, kurį planuojate skelbti.

🔗 Pateikite garsą Avatar arba Lip Sync

Generuokite kalbą čia, tada naudokite garso failą kaip įvestį Avatar (paversti nuotrauką kalbančiu video) arba Lip Sync (priversti ką nors esamame vaizdo įraše kalbėti). Tai yra balso pipeline jūsų AI personažui.

Text to Speech — Available Models

Multilingual v2

Default Default

eleven_multilingual_v2

29 languages, best quality for non-English. Default for dubbing.

29 languages

v3 — Latest

Latest

eleven_v3

74 languages, newest model.

74 languages

Flash v2.5

Fast

eleven_flash_v2_5

Ultra-fast, cost-efficient. 32 languages.

32 languages

Turbo v2.5

eleven_turbo_v2_5

Low-latency streaming. 32 languages.

32 languages

📥 You Give

📝Text to Speak 🎙️Voice Selection 🎭Emotion (optional) 🌍Language

✨

AI Magic

elevenlabs

🎵 You Get

🎵 Audio

Modes

Speech

Speech + Timing

Dialogue

Dialogue + Timing

Output formats

MP3 WAV PCM OPUS

🌍

74 languages

Model maximum

📝

5,000 chars

Max text per request

🗣️

10 inputs

10 voices

⚡

Speed 0.5-2x

Playback rate

🎯

Stability 0-1

Voice consistency

💰 Text to Speech — Pricing

Estimated cost

—

Failed jobs are automatically refunded