Home AI工具 AI指南 AI模型 AI创作者 🛒 购买 立即开始
audio | Mistral AI

📝Voxtral Transcribe

以说话者分离功能转录13种语言的音频和视频文件

audio Voxtral Mini Transcribe BATCH Mistral AI
Voxtral Transcribe使用Mistral AI将音频和视频文件转换为书面文本。上传录音——播客、采访、会议、配音或任何媒体文件——AI将生成完整的文本转录,并可选择性地进行说话者识别和逐字时间戳。

支持13种语言:法语、英语、西班牙语、阿拉伯语、俄语、日语、中文、德语、葡萄牙语、意大利语、韩语、印地语和荷兰语。手动设置语言或让AI自动从音频内容中检测。

说话者分离功能识别多人的录音中的个别说话者。当启用时,转录将标记每个段落——说话者1、说话者2——让您可以跟踪在采访、会议或对话中谁说了什么。逐字时间戳为每个单词添加精确的时间数据,适用于字幕创建或将文本与视频同步。

上下文偏差允许您向AI提供一份专有名词、品牌名称或可能被误听的技术术语的列表。添加像Voxtral、ArtCoreAI或特定领域的行话,AI将提高对这些单词的识别准确性。

接受的格式包括MP3、WAV、M4A、FLAC、OGG、MP4、MOV和WebM——每个文件最多500 MB和3小时。波形可视化显示上传的音频及其持续时间和文件信息,然后您可以提交。结果以格式化文本显示,并带有一键复制按钮,转录内容将保存以供日后参考。

费用基于音频时长——大约每分钟/bin/bash.003——使其成为最实惠的转录选项之一。

最佳效果

🎧
清晰的音频带来清晰的转录
背景噪音、音乐和回声会降低转录准确性。为了获得最佳效果,请使用清晰语音和最小干扰的录音。如果从视频转录,请确保对话轨道突出。
🗣️
启用多说话者的分离功能
如果您的录音中有超过一个人说话,请开启说话者分离功能。AI会分开并标记每个说话者,使转录易于跟随——这对于采访、会议和播客至关重要。
📌
使用上下文偏差处理名称
将专有名词、品牌名称和技术术语添加到上下文偏差字段。像Voxtral、ArtCoreAI或行业行话这样的词在没有这个提示的情况下常常被误听——上下文偏差显著提高了不常见单词的准确性。
🌍
已知语言时设置语言
自动检测在单语言录音中效果良好,但如果您知道语言,请手动设置。这可以避免在短片段或带有口音的录音中出现检测错误。
⏱️
逐字时间戳用于字幕
如果您计划创建字幕或将文本与视频同步,请启用逐字时间戳。每个单词都有一个精确的时间标记,使文本与视觉内容对齐变得容易。
💰
极低的成本
每分钟大约/bin/bash.003,转录一小时的完整音频费用不到/bin/bash.20的积分。首先用短片测试以验证质量,然后自信地处理更长的录音。

指南

Voxtral Transcribe
🎵 Audio
🎙️ Voxtral 3 min read

Voxtral Transcribe — Technical Guide

Transcribe audio and video files in 13 languages with speaker diarization

📝

试用 Voxtral Transcribe

无需订阅。按使用量付费。

开始创作 →

更多 Mistral AI 工具

探索其他工具