Home Herramientas IA Guías IA Modelos IA Creadores IA 🛒 Comprar Empezar
🎙️ Voxtral ⏱ 3 min read 📝 Voxtral Transcribe

Voxtral Transcribe — Technical Guide

Transcribe archivos de audio y video en 13 idiomas con diarización de hablantes

📝

Voxtral Transcribe

Transcribe archivos de audio y video en 13 idiomas con diarización de hablantes
Voxtral Transcribe convierte archivos de audio y video en texto escrito utilizando Mistral AI. Sube una grabación — podcast, entrevista, reunión, voz en off o cualquier archivo multimedia — y la IA produce una transcripción completa con identificación opcional de hablantes y marcas de tiempo a nivel de palabra.

Soporta 13 idiomas: francés, inglés, español, árabe, ruso, japonés, chino, alemán, portugués, italiano, coreano, hindi y neerlandés. Establece el idioma manualmente o deja que la IA lo detecte automáticamente a partir del contenido de audio.

La diarización de hablantes identifica a los hablantes individuales en grabaciones de múltiples personas. Cuando está habilitada, la transcripción etiqueta cada segmento — Hablante 1, Hablante 2 — para que puedas seguir quién dijo qué en entrevistas, reuniones o diálogos. Las marcas de tiempo de palabras añaden datos de tiempo precisos a cada palabra, útiles para la creación de subtítulos o la sincronización de texto con video.

El sesgo de contexto te permite alimentar a la IA con una lista de nombres propios, marcas comerciales o términos técnicos que de otro modo podrían ser malinterpretados. Agrega nombres como Voxtral, ArtCoreAI o jerga específica del dominio, y la IA mejora la precisión del reconocimiento para esas palabras.

Los formatos aceptados incluyen MP3, WAV, M4A, FLAC, OGG, MP4, MOV y WebM — hasta 500 MB y 3 horas por archivo. Una visualización de forma de onda muestra el audio subido con duración e información del archivo antes de que lo envíes. Los resultados se muestran como texto formateado con un botón de copia de un clic, y la transcripción se guarda para referencia futura.

El costo se basa en la duración del audio — aproximadamente /bin/bash.003 por minuto — lo que lo convierte en una de las opciones de transcripción más asequibles disponibles.
✦ Best Results Tips
🎧 Audio Limpio Da Transcripciones Limpias
El ruido de fondo, la música y el eco reducen la precisión de la transcripción. Para obtener los mejores resultados, utiliza grabaciones con discurso claro y mínima interferencia. Si transcribes desde video, asegúrate de que la pista de diálogo sea prominente.
🗣️ Habilita la Diarización para Múltiples Hablantes
Si tu grabación tiene más de una persona hablando, activa la diarización de hablantes. La IA separa y etiqueta a cada hablante, haciendo que la transcripción sea fácil de seguir — esencial para entrevistas, reuniones y podcasts.
📌 Usa Sesgo de Contexto para Nombres
Agrega nombres propios, marcas comerciales y términos técnicos al campo de sesgo de contexto. Palabras como Voxtral, ArtCoreAI o jerga de la industria a menudo son malinterpretadas sin esta pista — el sesgo de contexto mejora drásticamente la precisión para palabras poco comunes.
🌍 Establece el Idioma Cuando Sea Conocido
La detección automática funciona bien para grabaciones en un solo idioma, pero si conoces el idioma, configúralo manualmente. Esto evita errores de detección en clips cortos o grabaciones con discurso acentuado.
⏱️ Marcas de Tiempo de Palabras para Subtítulos
Habilita las marcas de tiempo de palabras si planeas crear subtítulos o sincronizar el texto con video. Cada palabra recibe un marcador de tiempo preciso, facilitando la alineación del texto con el contenido visual.
💰 Costo Extremadamente Bajo
A aproximadamente /bin/bash.003 por minuto, transcribir una hora completa de audio cuesta menos de /bin/bash.20 en créditos. Prueba primero con un clip corto para verificar la calidad, luego procesa grabaciones más largas con confianza.

Voxtral Transcribe — Available Models

Voxtral Mini Transcribe
BATCH Default
voxtral-mini-latest
State-of-the-art transcription with speaker diarization. 4% WER on FLEURS. $0.003/min.
Mode: transcribe

💰 Voxtral Transcribe — Pricing

Estimated cost
Failed jobs are automatically refunded

📝 Voxtral Transcribe

Probar Voxtral Transcribe