audio | Mistral AI

📝Voxtral Transcribe

Transcribe archivos de audio y video en 13 idiomas con diarización de hablantes

audio Voxtral Mini Transcribe BATCH Mistral AI

Voxtral Transcribe convierte archivos de audio y video en texto escrito utilizando Mistral AI. Sube una grabación — podcast, entrevista, reunión, voz en off o cualquier archivo multimedia — y la IA produce una transcripción completa con identificación opcional de hablantes y marcas de tiempo a nivel de palabra.

Soporta 13 idiomas: francés, inglés, español, árabe, ruso, japonés, chino, alemán, portugués, italiano, coreano, hindi y neerlandés. Establece el idioma manualmente o deja que la IA lo detecte automáticamente a partir del contenido de audio.

La diarización de hablantes identifica a los hablantes individuales en grabaciones de múltiples personas. Cuando está habilitada, la transcripción etiqueta cada segmento — Hablante 1, Hablante 2 — para que puedas seguir quién dijo qué en entrevistas, reuniones o diálogos. Las marcas de tiempo de palabras añaden datos de tiempo precisos a cada palabra, útiles para la creación de subtítulos o la sincronización de texto con video.

El sesgo de contexto te permite alimentar a la IA con una lista de nombres propios, marcas comerciales o términos técnicos que de otro modo podrían ser malinterpretados. Agrega nombres como Voxtral, ArtCoreAI o jerga específica del dominio, y la IA mejora la precisión del reconocimiento para esas palabras.

Los formatos aceptados incluyen MP3, WAV, M4A, FLAC, OGG, MP4, MOV y WebM — hasta 500 MB y 3 horas por archivo. Una visualización de forma de onda muestra el audio subido con duración e información del archivo antes de que lo envíes. Los resultados se muestran como texto formateado con un botón de copia de un clic, y la transcripción se guarda para referencia futura.

El costo se basa en la duración del audio — aproximadamente /bin/bash.003 por minuto — lo que lo convierte en una de las opciones de transcripción más asequibles disponibles.

Mejores resultados

🎧

Audio Limpio Da Transcripciones Limpias

El ruido de fondo, la música y el eco reducen la precisión de la transcripción. Para obtener los mejores resultados, utiliza grabaciones con discurso claro y mínima interferencia. Si transcribes desde video, asegúrate de que la pista de diálogo sea prominente.

🗣️

Habilita la Diarización para Múltiples Hablantes

Si tu grabación tiene más de una persona hablando, activa la diarización de hablantes. La IA separa y etiqueta a cada hablante, haciendo que la transcripción sea fácil de seguir — esencial para entrevistas, reuniones y podcasts.

📌

Usa Sesgo de Contexto para Nombres

Agrega nombres propios, marcas comerciales y términos técnicos al campo de sesgo de contexto. Palabras como Voxtral, ArtCoreAI o jerga de la industria a menudo son malinterpretadas sin esta pista — el sesgo de contexto mejora drásticamente la precisión para palabras poco comunes.

🌍

Establece el Idioma Cuando Sea Conocido

La detección automática funciona bien para grabaciones en un solo idioma, pero si conoces el idioma, configúralo manualmente. Esto evita errores de detección en clips cortos o grabaciones con discurso acentuado.

⏱️

Marcas de Tiempo de Palabras para Subtítulos

Habilita las marcas de tiempo de palabras si planeas crear subtítulos o sincronizar el texto con video. Cada palabra recibe un marcador de tiempo preciso, facilitando la alineación del texto con el contenido visual.

💰

Costo Extremadamente Bajo

A aproximadamente /bin/bash.003 por minuto, transcribir una hora completa de audio cuesta menos de /bin/bash.20 en créditos. Prueba primero con un clip corto para verificar la calidad, luego procesa grabaciones más largas con confianza.

Guías

📝

Probar Voxtral Transcribe

Sin suscripción. Paga solo por lo que creas.

Empezar a crear →

📝Voxtral Transcribe

Mejores resultados

Guías

Voxtral Transcribe — Technical Guide

Probar Voxtral Transcribe

Más herramientas Mistral AI

Explorar otras herramientas