Home DI įrankiai DI gidai DI modeliai DI kūrėjai 🛒 Pirkti Pradėti
🎙️ ElevenLabs ⏱ 6 min read 🗣️ Tekstas į kalbą

Text to Speech — Technical Guide

Įveskite bet kokį tekstą ir išgirskite jį kalbant natūraliu AI balsu — pasirinkite iš tūkstančių balsų daugiau nei 30 kalbų, kurkite daugiabalsius dialogus ir kontroliuokite emocijas, greitį ir pristatymo stilių

🗣️

Text to Speech

elevenlabs audio /app/elevenlabs-tts →
Įveskite bet kokį tekstą ir išgirskite jį kalbant natūraliu AI balsu — pasirinkite iš tūkstančių balsų daugiau nei 30 kalbų, kurkite daugiabalsius dialogus ir kontroliuokite emocijas, greitį ir pristatymo stilių
Tekstas į kalbą paverčia rašytus žodžius natūraliai skambančiu garsu. Įveskite, ką norite pasakyti, pasirinkite balsą iš tūkstančių bibliotekos, o AI generuoja kalbą, kuri skamba kaip tikras žmogus — su natūraliu ritmu, pauzėmis ir išraiška. Palaiko daugiau nei 30 kalbų.

Keturi režimai apima skirtingus poreikius. Kalbos kūrimas generuoja garsą iš teksto su vienu balsu — paprasčiausias ir dažniausiai naudojamas. Kalba su laiku prideda simbolių lygio laiko žymes į išvestį, naudingas sinchronizuojant garsą su subtitrais ar animacijomis. Dialogo kūrimas leidžia priskirti skirtingus balsus skirtingoms eilutėms, sukuriant daugiabalsį pokalbį su iki 10 unikalių kalbėtojų. Dialogas su laiko žymėmis sujungia daugiabalsį su laiko duomenimis, kad būtų tikslūs sinchronizavimo procesai.

Emocijų ir pristatymo kontrolė leidžia kalbai jaustis žmogiškai. Naujausiame v3 modelyje garso žymės leidžia jums tiesiogiai įterpti nurodymus į tekstą — pažymėkite žodį kaip šnabždesį, susijaudinimą ar atodūsį, ir balsas reaguoja natūraliai. Greičio ir stabilumo slankikliai tiksliai reguliuoja, kaip greitai balsas kalba ir kaip nuoseklus jis išlieka.

Generuotas garsas veikia savarankiškai podcast'ams, balso įrašams ir naracijai, arba tiesiogiai įsilieja į kitas priemones — naudokite jį kaip garso įvestį Avatar (nuotrauką paversti kalbančiu video) arba Lip Sync (priversti ką nors vaizdo įraše kalbėti). Taip suteikiate savo AI personažui balsą visame jų turinyje.
✦ Best Results Tips
🎧 Peržiūrėkite balsus prieš generuodami
Naršykite balsų biblioteką ir klausykite peržiūrų prieš įsipareigodami. Skirtingi balsai puikiai tinka skirtingam turiniui — kai kurie skamba šiltai ir pokalbiškai, kiti skamba autoritetingai ir profesionaliai. Raskite tą, kuris atitinka jūsų personažą.
✍️ Naudokite skyrybos ženklus natūralioms pauzėms
Kableliai sukuria trumpas pauzes, taškai sukuria ilgesnes, ištraukos sukuria užsitęsusią dvejonę. Rašykite tekstą taip, kaip norite, kad jis būtų kalbamas — skyrybos ženklai yra lengviausias būdas kontroliuoti ritmą ir tempą.
🎭 Garso žymės emocijoms (tik v3)
V3 modelyje įterpkite žymes, tokias kaip [susijaudinęs], [šnabžda], [atodūsis], tiesiai į savo tekstą, kad pakeistumėte pristatymą viduryje sakinio. Spustelėkite bet kurią žymės piliulę puslapyje, kad įterptumėte ją savo žymeklio pozicijoje.
💬 Dialogo režimas pokalbiams
Naudokite Dialogo kūrimą, kai jums reikia kelių balsų — kiekviena eilutė gauna savo balsą. Iki 10 unikalių balsų kiekvienai generacijai. Puikiai tinka podcast'ams, interviu ar personažų sąveikai.
Greitis su Flash, kokybė su Multilingual
Flash ir Turbo modeliai generuoja greičiau ir kainuoja mažiau — puikiai tinka juodraščiams ir testavimui. Multilingual v2 ir v3 sukuria natūraliausią, išraiškingą kalbą — naudokite juos galutiniam turiniui, kurį planuojate skelbti.
🔗 Pateikite garsą Avatar arba Lip Sync
Generuokite kalbą čia, tada naudokite garso failą kaip įvestį Avatar (paversti nuotrauką kalbančiu video) arba Lip Sync (priversti ką nors esamame vaizdo įraše kalbėti). Tai yra balso pipeline jūsų AI personažui.

Text to Speech — Available Models

Multilingual v2
Default Default
eleven_multilingual_v2
29 languages, best quality for non-English. Default for dubbing.
29 languages
v3 — Latest
Latest
eleven_v3
74 languages, newest model.
74 languages
Flash v2.5
Fast
eleven_flash_v2_5
Ultra-fast, cost-efficient. 32 languages.
32 languages
Turbo v2.5
eleven_turbo_v2_5
Low-latency streaming. 32 languages.
32 languages
📥 You Give
📝Text to Speak 🎙️Voice Selection 🎭Emotion (optional) 🌍Language
AI Magic
elevenlabs
🎵 You Get
🎵 Audio
Modes
Speech
Speech + Timing
Dialogue
Dialogue + Timing
Output formats
MP3 WAV PCM OPUS
🌍
74 languages
Model maximum
📝
5,000 chars
Max text per request
🗣️
10 inputs
10 voices
Speed 0.5-2x
Playback rate
🎯
Stability 0-1
Voice consistency

💰 Text to Speech — Pricing

Estimated cost
Failed jobs are automatically refunded

🗣️ Tekstas į kalbą

Išbandyti Tekstas į kalbą