Home DI įrankiai DI gidai DI modeliai DI kūrėjai 🛒 Pirkti Pradėti
🎙️ Voxtral ⏱ 3 min read 📝 Voxtral Transcribe

Voxtral Transcribe — Technical Guide

Transkribuokite garso ir vaizdo failus 13 kalbomis su kalbėtojų diarizacija

📝

Voxtral Transcribe

Transkribuokite garso ir vaizdo failus 13 kalbomis su kalbėtojų diarizacija
Voxtral Transcribe paverčia garso ir vaizdo failus į rašytinį tekstą naudodamas Mistral AI. Įkelkite įrašą — podcast'ą, interviu, susirinkimą, balso įrašą ar bet kurį kitą medijos failą — ir AI sukuria pilną teksto transkripciją su pasirinktiniais kalbėtojų identifikavimais ir žodžių lygio laiko žymėjimais.

Palaiko 13 kalbų: prancūzų, anglų, ispanų, arabų, rusų, japonų, kinų, vokiečių, portugalų, italų, korėjiečių, hindi ir olandų. Nustatykite kalbą rankiniu būdu arba leiskite AI automatiškai ją aptikti iš garso turinio.

Kalbėtojų diarizacija identifikuoja atskirus kalbėtojus daugiasluoksniuose įrašuose. Kai įjungta, transkripcija žymi kiekvieną segmentą — Kalbėtojas 1, Kalbėtojas 2 — kad galėtumėte sekti, kas ką pasakė interviu, susirinkimuose ar dialoguose. Žodžių laiko žymėjimai prideda tikslius laiko duomenis kiekvienam žodžiui, naudinga kuriant subtitrus arba sinchronizuojant tekstą su vaizdo įrašu.

Konteksto šališkumas leidžia jums pateikti AI tinkamų daiktavardžių, prekių ženklų ar techninių terminų sąrašą, kurie kitaip gali būti neteisingai išgirsti. Pridėkite tokius vardus kaip Voxtral, ArtCoreAI ar srities specifinę žargoną, ir AI padidina atpažinimo tikslumą šiems žodžiams.

Priimami formatai apima MP3, WAV, M4A, FLAC, OGG, MP4, MOV ir WebM — iki 500 MB ir 3 valandas vienam failui. Garso bangos vizualizacija rodo įkelto garso trukmę ir failo informaciją prieš pateikiant. Rezultatai pateikiami kaip suformatuotas tekstas su vieno paspaudimo kopijavimo mygtuku, o transkripcija išsaugoma vėlesniam naudojimui.

Kaina priklauso nuo garso trukmės — maždaug /bin/bash.003 už minutę — todėl tai yra viena iš pigiausių transkripcijos galimybių.
✦ Best Results Tips
🎧 Švarus garso įrašas suteikia švarius transkriptus
Fono triukšmas, muzika ir atgarsiai mažina transkripcijos tikslumą. Norint gauti geriausius rezultatus, naudokite įrašus su aiškiu kalbėjimu ir minimaliais trukdžiais. Jei transkribuojate iš vaizdo, užtikrinkite, kad dialogo takelis būtų ryškus.
🗣️ Įjunkite diarizaciją daugialypiam kalbėjimui
Jei jūsų įraše kalba daugiau nei vienas asmuo, įjunkite kalbėtojų diarizaciją. AI atskiria ir žymi kiekvieną kalbėtoją, todėl transkripcija yra lengvai sekama — būtina interviu, susirinkimų ir podcast'ų atveju.
📌 Naudokite konteksto šališkumą vardams
Pridėkite tinkamus daiktavardžius, prekių ženklus ir techninius terminus į konteksto šališkumo lauką. Tokie žodžiai kaip Voxtral, ArtCoreAI ar pramonės žargonas dažnai būna neteisingai išgirsti be šio užuominos — konteksto šališkumas dramatiškai pagerina tikslumą neįprastiems žodžiams.
🌍 Nustatykite kalbą, kai ji žinoma
Automatinis aptikimas gerai veikia vienos kalbos įrašams, tačiau jei žinote kalbą, nustatykite ją rankiniu būdu. Tai padeda išvengti aptikimo klaidų trumpuose klipuose ar įrašuose su akcentuotu kalbėjimu.
⏱️ Žodžių laiko žymėjimai subtitrams
Įjunkite žodžių laiko žymėjimus, jei planuojate kurti subtitrus arba sinchronizuoti tekstą su vaizdo įrašu. Kiekvienam žodžiui priskiriamas tikslus laiko žymeklis, todėl lengva suderinti tekstą su vizualiniu turiniu.
💰 Labai maža kaina
Maždaug /bin/bash.003 už minutę, viso garso valandos transkribavimas kainuoja mažiau nei /bin/bash.20 kreditais. Pirmiausia išbandykite su trumpu klipu, kad patvirtintumėte kokybę, tada drąsiai apdorokite ilgesnius įrašus.

Voxtral Transcribe — Available Models

Voxtral Mini Transcribe
BATCH Default
voxtral-mini-latest
State-of-the-art transcription with speaker diarization. 4% WER on FLEURS. $0.003/min.
Mode: transcribe

💰 Voxtral Transcribe — Pricing

Estimated cost
Failed jobs are automatically refunded

📝 Voxtral Transcribe

Išbandyti Voxtral Transcribe