audio | Mistral AI
Voxtral Transcribe
Transcribe archivos de audio y video en 13 idiomas con diarización de hablantes
audio
Voxtral Mini Transcribe BATCH
Mistral AI
Voxtral Transcribe convierte archivos de audio y video en texto escrito utilizando Mistral AI. Sube una grabación — podcast, entrevista, reunión, voz en off o cualquier archivo multimedia — y la IA produce una transcripción completa con identificación opcional de hablantes y marcas de tiempo a nivel de palabra.
Soporta 13 idiomas: francés, inglés, español, árabe, ruso, japonés, chino, alemán, portugués, italiano, coreano, hindi y neerlandés. Establece el idioma manualmente o deja que la IA lo detecte automáticamente a partir del contenido de audio.
La diarización de hablantes identifica a los hablantes individuales en grabaciones de múltiples personas. Cuando está habilitada, la transcripción etiqueta cada segmento — Hablante 1, Hablante 2 — para que puedas seguir quién dijo qué en entrevistas, reuniones o diálogos. Las marcas de tiempo de palabras añaden datos de tiempo precisos a cada palabra, útiles para la creación de subtítulos o la sincronización de texto con video.
El sesgo de contexto te permite alimentar a la IA con una lista de nombres propios, marcas comerciales o términos técnicos que de otro modo podrían ser malinterpretados. Agrega nombres como Voxtral, ArtCoreAI o jerga específica del dominio, y la IA mejora la precisión del reconocimiento para esas palabras.
Los formatos aceptados incluyen MP3, WAV, M4A, FLAC, OGG, MP4, MOV y WebM — hasta 500 MB y 3 horas por archivo. Una visualización de forma de onda muestra el audio subido con duración e información del archivo antes de que lo envíes. Los resultados se muestran como texto formateado con un botón de copia de un clic, y la transcripción se guarda para referencia futura.
El costo se basa en la duración del audio — aproximadamente /bin/bash.003 por minuto — lo que lo convierte en una de las opciones de transcripción más asequibles disponibles.
Soporta 13 idiomas: francés, inglés, español, árabe, ruso, japonés, chino, alemán, portugués, italiano, coreano, hindi y neerlandés. Establece el idioma manualmente o deja que la IA lo detecte automáticamente a partir del contenido de audio.
La diarización de hablantes identifica a los hablantes individuales en grabaciones de múltiples personas. Cuando está habilitada, la transcripción etiqueta cada segmento — Hablante 1, Hablante 2 — para que puedas seguir quién dijo qué en entrevistas, reuniones o diálogos. Las marcas de tiempo de palabras añaden datos de tiempo precisos a cada palabra, útiles para la creación de subtítulos o la sincronización de texto con video.
El sesgo de contexto te permite alimentar a la IA con una lista de nombres propios, marcas comerciales o términos técnicos que de otro modo podrían ser malinterpretados. Agrega nombres como Voxtral, ArtCoreAI o jerga específica del dominio, y la IA mejora la precisión del reconocimiento para esas palabras.
Los formatos aceptados incluyen MP3, WAV, M4A, FLAC, OGG, MP4, MOV y WebM — hasta 500 MB y 3 horas por archivo. Una visualización de forma de onda muestra el audio subido con duración e información del archivo antes de que lo envíes. Los resultados se muestran como texto formateado con un botón de copia de un clic, y la transcripción se guarda para referencia futura.
El costo se basa en la duración del audio — aproximadamente /bin/bash.003 por minuto — lo que lo convierte en una de las opciones de transcripción más asequibles disponibles.
Mejores resultados
Audio Limpio Da Transcripciones Limpias
El ruido de fondo, la música y el eco reducen la precisión de la transcripción. Para obtener los mejores resultados, utiliza grabaciones con discurso claro y mínima interferencia. Si transcribes desde video, asegúrate de que la pista de diálogo sea prominente.
Habilita la Diarización para Múltiples Hablantes
Si tu grabación tiene más de una persona hablando, activa la diarización de hablantes. La IA separa y etiqueta a cada hablante, haciendo que la transcripción sea fácil de seguir — esencial para entrevistas, reuniones y podcasts.
Usa Sesgo de Contexto para Nombres
Agrega nombres propios, marcas comerciales y términos técnicos al campo de sesgo de contexto. Palabras como Voxtral, ArtCoreAI o jerga de la industria a menudo son malinterpretadas sin esta pista — el sesgo de contexto mejora drásticamente la precisión para palabras poco comunes.
Establece el Idioma Cuando Sea Conocido
La detección automática funciona bien para grabaciones en un solo idioma, pero si conoces el idioma, configúralo manualmente. Esto evita errores de detección en clips cortos o grabaciones con discurso acentuado.
Marcas de Tiempo de Palabras para Subtítulos
Habilita las marcas de tiempo de palabras si planeas crear subtítulos o sincronizar el texto con video. Cada palabra recibe un marcador de tiempo preciso, facilitando la alineación del texto con el contenido visual.
Costo Extremadamente Bajo
A aproximadamente /bin/bash.003 por minuto, transcribir una hora completa de audio cuesta menos de /bin/bash.20 en créditos. Prueba primero con un clip corto para verificar la calidad, luego procesa grabaciones más largas con confianza.
Guías
Voxtral Transcribe
🎵
Audio
Voxtral Transcribe — Technical Guide
Transcribe audio and video files in 13 languages with speaker diarization