🎙️ Voxtral ⏱ 3 min read 📝 Voxtral Transcribe

Voxtral Transcribe — Technical Guide

Транскрибируйте аудио и видеофайлы на 13 языках с диаризацией говорящих

📝

Voxtral Transcribe

mistral audio /app/voxtral-transcribe →

Транскрибируйте аудио и видеофайлы на 13 языках с диаризацией говорящих

Voxtral Transcribe преобразует аудио и видеофайлы в письменный текст с использованием Mistral AI. Загрузите запись — подкаст, интервью, встречу, озвучивание или любой медиафайл — и ИИ создаст полный текстовый транскрипт с опциональной идентификацией говорящих и временными метками на уровне слов.

Поддерживает 13 языков: французский, английский, испанский, арабский, русский, японский, китайский, немецкий, португальский, итальянский, корейский, хинди и нидерландский. Установите язык вручную или позвольте ИИ автоматически определить его по аудиосодержимому.

Диаризация говорящих идентифицирует отдельных говорящих в записях с несколькими участниками. При включении транскрипт помечает каждый сегмент — Говорящий 1, Говорящий 2 — так вы можете следить за тем, кто что сказал в интервью, встречах или диалогах. Временные метки слов добавляют точные временные данные к каждому слову, что полезно для создания субтитров или синхронизации текста с видео.

Контекстный сдвиг позволяет вам предоставить ИИ список собственных имен, названий брендов или технических терминов, которые могут быть неправильно восприняты. Добавьте такие имена, как Voxtral, ArtCoreAI или специализированный жаргон, и ИИ повысит точность распознавания для этих слов.

Принимаемые форматы включают MP3, WAV, M4A, FLAC, OGG, MP4, MOV и WebM — до 500 МБ и 3 часа на файл. Визуализация формы волны показывает загруженное аудио с длительностью и информацией о файле перед отправкой. Результаты отображаются в виде отформатированного текста с кнопкой копирования в один клик, а транскрипт сохраняется для последующего использования.

Стоимость основана на длительности аудио — примерно /bin/bash.003 за минуту — что делает его одним из самых доступных вариантов транскрипции.

✦ Best Results Tips

🎧 Чистое аудио дает чистые транскрипты

Фоновый шум, музыка и эхо снижают точность транскрипции. Для наилучших результатов используйте записи с четкой речью и минимальными помехами. Если транскрибируете из видео, убедитесь, что дорожка диалога ярко выражена.

🗣️ Включите диаризацию для нескольких говорящих

Если в вашей записи говорит более одного человека, включите диаризацию говорящих. ИИ разделяет и помечает каждого говорящего, что делает транскрипт легким для восприятия — это важно для интервью, встреч и подкастов.

📌 Используйте контекстный сдвиг для имен

Добавьте собственные имена, названия брендов и технические термины в поле контекстного сдвига. Слова, такие как Voxtral, ArtCoreAI или отраслевой жаргон, часто неправильно воспринимаются без этой подсказки — контекстный сдвиг значительно улучшает точность для редких слов.

🌍 Установите язык, если он известен

Автоопределение хорошо работает для записей на одном языке, но если вы знаете язык, установите его вручную. Это позволяет избежать ошибок определения на коротких клипах или записях с акцентированной речью.

⏱️ Временные метки слов для субтитров

Включите временные метки слов, если планируете создавать субтитры или синхронизировать текст с видео. Каждое слово получает точный временной маркер, что облегчает выравнивание текста с визуальным содержимым.

💰 Крайне низкая стоимость

При стоимости примерно /bin/bash.003 за минуту транскрибирование полного часа аудио стоит менее /bin/bash.20 в кредитах. Сначала протестируйте с коротким клипом, чтобы проверить качество, а затем уверенно обрабатывайте более длинные записи.

Voxtral Transcribe — Available Models

Voxtral Mini Transcribe

BATCH Default

voxtral-mini-latest

State-of-the-art transcription with speaker diarization. 4% WER on FLEURS. $0.003/min.

Mode: transcribe

💰 Voxtral Transcribe — Pricing

Estimated cost

—

Failed jobs are automatically refunded