🎙️ Voxtral ⏱ 3 min read 📝 Voxtral Transcribe

Voxtral Transcribe — Technical Guide

Transkribuokite garso ir vaizdo failus 13 kalbomis su kalbėtojų diarizacija

📝

Voxtral Transcribe

mistral audio /app/voxtral-transcribe →

Transkribuokite garso ir vaizdo failus 13 kalbomis su kalbėtojų diarizacija

Voxtral Transcribe paverčia garso ir vaizdo failus į rašytinį tekstą naudodamas Mistral AI. Įkelkite įrašą — podcast'ą, interviu, susirinkimą, balso įrašą ar bet kurį kitą medijos failą — ir AI sukuria pilną teksto transkripciją su pasirinktiniais kalbėtojų identifikavimais ir žodžių lygio laiko žymėjimais.

Palaiko 13 kalbų: prancūzų, anglų, ispanų, arabų, rusų, japonų, kinų, vokiečių, portugalų, italų, korėjiečių, hindi ir olandų. Nustatykite kalbą rankiniu būdu arba leiskite AI automatiškai ją aptikti iš garso turinio.

Kalbėtojų diarizacija identifikuoja atskirus kalbėtojus daugiasluoksniuose įrašuose. Kai įjungta, transkripcija žymi kiekvieną segmentą — Kalbėtojas 1, Kalbėtojas 2 — kad galėtumėte sekti, kas ką pasakė interviu, susirinkimuose ar dialoguose. Žodžių laiko žymėjimai prideda tikslius laiko duomenis kiekvienam žodžiui, naudinga kuriant subtitrus arba sinchronizuojant tekstą su vaizdo įrašu.

Konteksto šališkumas leidžia jums pateikti AI tinkamų daiktavardžių, prekių ženklų ar techninių terminų sąrašą, kurie kitaip gali būti neteisingai išgirsti. Pridėkite tokius vardus kaip Voxtral, ArtCoreAI ar srities specifinę žargoną, ir AI padidina atpažinimo tikslumą šiems žodžiams.

Priimami formatai apima MP3, WAV, M4A, FLAC, OGG, MP4, MOV ir WebM — iki 500 MB ir 3 valandas vienam failui. Garso bangos vizualizacija rodo įkelto garso trukmę ir failo informaciją prieš pateikiant. Rezultatai pateikiami kaip suformatuotas tekstas su vieno paspaudimo kopijavimo mygtuku, o transkripcija išsaugoma vėlesniam naudojimui.

Kaina priklauso nuo garso trukmės — maždaug /bin/bash.003 už minutę — todėl tai yra viena iš pigiausių transkripcijos galimybių.

✦ Best Results Tips

🎧 Švarus garso įrašas suteikia švarius transkriptus

Fono triukšmas, muzika ir atgarsiai mažina transkripcijos tikslumą. Norint gauti geriausius rezultatus, naudokite įrašus su aiškiu kalbėjimu ir minimaliais trukdžiais. Jei transkribuojate iš vaizdo, užtikrinkite, kad dialogo takelis būtų ryškus.

🗣️ Įjunkite diarizaciją daugialypiam kalbėjimui

Jei jūsų įraše kalba daugiau nei vienas asmuo, įjunkite kalbėtojų diarizaciją. AI atskiria ir žymi kiekvieną kalbėtoją, todėl transkripcija yra lengvai sekama — būtina interviu, susirinkimų ir podcast'ų atveju.

📌 Naudokite konteksto šališkumą vardams

Pridėkite tinkamus daiktavardžius, prekių ženklus ir techninius terminus į konteksto šališkumo lauką. Tokie žodžiai kaip Voxtral, ArtCoreAI ar pramonės žargonas dažnai būna neteisingai išgirsti be šio užuominos — konteksto šališkumas dramatiškai pagerina tikslumą neįprastiems žodžiams.

🌍 Nustatykite kalbą, kai ji žinoma

Automatinis aptikimas gerai veikia vienos kalbos įrašams, tačiau jei žinote kalbą, nustatykite ją rankiniu būdu. Tai padeda išvengti aptikimo klaidų trumpuose klipuose ar įrašuose su akcentuotu kalbėjimu.

⏱️ Žodžių laiko žymėjimai subtitrams

Įjunkite žodžių laiko žymėjimus, jei planuojate kurti subtitrus arba sinchronizuoti tekstą su vaizdo įrašu. Kiekvienam žodžiui priskiriamas tikslus laiko žymeklis, todėl lengva suderinti tekstą su vizualiniu turiniu.

💰 Labai maža kaina

Maždaug /bin/bash.003 už minutę, viso garso valandos transkribavimas kainuoja mažiau nei /bin/bash.20 kreditais. Pirmiausia išbandykite su trumpu klipu, kad patvirtintumėte kokybę, tada drąsiai apdorokite ilgesnius įrašus.

Voxtral Transcribe — Available Models

Voxtral Mini Transcribe

BATCH Default

voxtral-mini-latest

State-of-the-art transcription with speaker diarization. 4% WER on FLEURS. $0.003/min.

Mode: transcribe

💰 Voxtral Transcribe — Pricing

Estimated cost

—

Failed jobs are automatically refunded