audio | Mistral AI

📝Voxtral Transcribe

以说话者分离功能转录13种语言的音频和视频文件

audio Voxtral Mini Transcribe BATCH Mistral AI

Voxtral Transcribe使用Mistral AI将音频和视频文件转换为书面文本。上传录音——播客、采访、会议、配音或任何媒体文件——AI将生成完整的文本转录，并可选择性地进行说话者识别和逐字时间戳。

支持13种语言：法语、英语、西班牙语、阿拉伯语、俄语、日语、中文、德语、葡萄牙语、意大利语、韩语、印地语和荷兰语。手动设置语言或让AI自动从音频内容中检测。

说话者分离功能识别多人的录音中的个别说话者。当启用时，转录将标记每个段落——说话者1、说话者2——让您可以跟踪在采访、会议或对话中谁说了什么。逐字时间戳为每个单词添加精确的时间数据，适用于字幕创建或将文本与视频同步。

上下文偏差允许您向AI提供一份专有名词、品牌名称或可能被误听的技术术语的列表。添加像Voxtral、ArtCoreAI或特定领域的行话，AI将提高对这些单词的识别准确性。

接受的格式包括MP3、WAV、M4A、FLAC、OGG、MP4、MOV和WebM——每个文件最多500 MB和3小时。波形可视化显示上传的音频及其持续时间和文件信息，然后您可以提交。结果以格式化文本显示，并带有一键复制按钮，转录内容将保存以供日后参考。

费用基于音频时长——大约每分钟/bin/bash.003——使其成为最实惠的转录选项之一。

最佳效果

🎧

清晰的音频带来清晰的转录

背景噪音、音乐和回声会降低转录准确性。为了获得最佳效果，请使用清晰语音和最小干扰的录音。如果从视频转录，请确保对话轨道突出。

🗣️

启用多说话者的分离功能

如果您的录音中有超过一个人说话，请开启说话者分离功能。AI会分开并标记每个说话者，使转录易于跟随——这对于采访、会议和播客至关重要。

📌

使用上下文偏差处理名称

将专有名词、品牌名称和技术术语添加到上下文偏差字段。像Voxtral、ArtCoreAI或行业行话这样的词在没有这个提示的情况下常常被误听——上下文偏差显著提高了不常见单词的准确性。

🌍

已知语言时设置语言

自动检测在单语言录音中效果良好，但如果您知道语言，请手动设置。这可以避免在短片段或带有口音的录音中出现检测错误。

⏱️

逐字时间戳用于字幕

如果您计划创建字幕或将文本与视频同步，请启用逐字时间戳。每个单词都有一个精确的时间标记，使文本与视觉内容对齐变得容易。

💰

极低的成本

每分钟大约/bin/bash.003，转录一小时的完整音频费用不到/bin/bash.20的积分。首先用短片测试以验证质量，然后自信地处理更长的录音。

指南

📝

试用 Voxtral Transcribe

无需订阅。按使用量付费。

开始创作 →

📝Voxtral Transcribe

最佳效果

指南

Voxtral Transcribe — Technical Guide

试用 Voxtral Transcribe

更多 Mistral AI 工具

探索其他工具