🎙️ Voxtral ⏱ 3 min read 📝 Voxtral Transcribe

Voxtral Transcribe — Technical Guide

スピーカーダイアリゼーションを使用して、13の言語で音声およびビデオファイルを文字起こしします

📝

Voxtral Transcribe

mistral audio /app/voxtral-transcribe →

スピーカーダイアリゼーションを使用して、13の言語で音声およびビデオファイルを文字起こしします

Voxtral Transcribeは、Mistral AIを使用して音声およびビデオファイルをテキストに変換します。録音をアップロードしてください — ポッドキャスト、インタビュー、会議、ボイスオーバー、または任意のメディアファイル — そしてAIは、オプションのスピーカー識別と単語レベルのタイムスタンプを含む完全なテキストトランスクリプトを生成します。

13の言語をサポートしています：フランス語、英語、スペイン語、アラビア語、ロシア語、日本語、中国語、ドイツ語、ポルトガル語、イタリア語、韓国語、ヒンディー語、オランダ語。言語を手動で設定するか、AIに音声コンテンツから自動的に検出させることができます。

スピーカーダイアリゼーションは、複数の人が話す録音で個々のスピーカーを識別します。有効にすると、トランスクリプトは各セグメントにラベルを付けます — スピーカー1、スピーカー2 — これにより、インタビュー、会議、または対話で誰が何を言ったかを追いやすくなります。単語のタイムスタンプは、各単語に正確なタイミングデータを追加し、字幕作成やテキストとビデオの同期に役立ちます。

コンテキストバイアスを使用すると、AIに誤って聞き取られる可能性のある固有名詞、ブランド名、または専門用語のリストを提供できます。Voxtral、ArtCoreAI、またはドメイン特有の専門用語などの名前を追加すると、AIはそれらの単語の認識精度を向上させます。

受け入れられるフォーマットには、MP3、WAV、M4A、FLAC、OGG、MP4、MOV、およびWebMが含まれます — ファイルごとに最大500MBおよび3時間。波形の視覚化は、提出前にアップロードされた音声の長さとファイル情報を表示します。結果はフォーマットされたテキストとして表示され、ワンクリックでコピーできるボタンがあり、トランスクリプトは後で参照できるように保存されます。

コストは音声の長さに基づいています — 約/bin/bash.003分あたり — これにより、最も手頃な文字起こしオプションの1つとなっています。

✦ Best Results Tips

🎧 クリーンな音声はクリーンなトランスクリプトを提供します

バックグラウンドノイズ、音楽、エコーは文字起こしの精度を低下させます。最良の結果を得るために、明瞭なスピーチと最小限の干渉のある録音を使用してください。ビデオから文字起こしを行う場合は、対話トラックが目立つことを確認してください。

🗣️ マルチスピーカーのためにダイアリゼーションを有効にする

録音に複数の人が話している場合は、スピーカーダイアリゼーションをオンにしてください。AIは各スピーカーを分離し、ラベルを付けるため、トランスクリプトを追いやすくします — インタビュー、会議、ポッドキャストに不可欠です。

📌 名前のためにコンテキストバイアスを使用する

固有名詞、ブランド名、専門用語をコンテキストバイアスフィールドに追加してください。Voxtral、ArtCoreAI、または業界用語のような単語は、このヒントなしでは誤って聞き取られることがよくあります — コンテキストバイアスは、珍しい単語の精度を劇的に向上させます。

🌍 言語がわかっている場合は設定する

オート検出は単一言語の録音にうまく機能しますが、言語がわかっている場合は手動で設定してください。これにより、短いクリップやアクセントのあるスピーチの録音での検出エラーを回避できます。

⏱️ 字幕用の単語タイムスタンプ

字幕を作成する予定がある場合や、テキストをビデオと同期させる予定がある場合は、単語タイムスタンプを有効にしてください。各単語には正確な時間マーカーが付与され、テキストを視覚コンテンツと合わせるのが簡単になります。

💰 非常に低コスト

約/bin/bash.003分あたりで、1時間の音声を文字起こしするのにかかるコストは、クレジットで/bin/bash.20未満です。まず短いクリップで品質を確認し、その後自信を持って長い録音を処理してください。

Voxtral Transcribe — Available Models

Voxtral Mini Transcribe

BATCH Default

voxtral-mini-latest

State-of-the-art transcription with speaker diarization. 4% WER on FLEURS. $0.003/min.

Mode: transcribe

💰 Voxtral Transcribe — Pricing

Estimated cost

—

Failed jobs are automatically refunded