🎙️ Voxtral ⏱ 3 min read 📝 Voxtral Transcribe

Voxtral Transcribe — Technical Guide

قم بتحويل ملفات الصوت والفيديو إلى نص مكتوب بـ 13 لغة مع تحديد المتحدثين

📝

Voxtral Transcribe

mistral audio /app/voxtral-transcribe →

قم بتحويل ملفات الصوت والفيديو إلى نص مكتوب بـ 13 لغة مع تحديد المتحدثين

يحول Voxtral Transcribe ملفات الصوت والفيديو إلى نص مكتوب باستخدام Mistral AI. قم بتحميل تسجيل — بودكاست، مقابلة، اجتماع، تعليق صوتي، أو أي ملف وسائط — وستقوم الذكاء الاصطناعي بإنتاج نص كامل مع إمكانية تحديد المتحدثين وتوقيت الكلمات.

يدعم 13 لغة: الفرنسية، الإنجليزية، الإسبانية، العربية، الروسية، اليابانية، الصينية، الألمانية، البرتغالية، الإيطالية، الكورية، الهندية، والهولندية. قم بتعيين اللغة يدويًا أو دع الذكاء الاصطناعي يكتشفها تلقائيًا من محتوى الصوت.

تحديد المتحدثين يحدد المتحدثين الفرديين في التسجيلات متعددة الأشخاص. عند التفعيل، يقوم النص بتسمية كل جزء — المتحدث 1، المتحدث 2 — حتى تتمكن من متابعة من قال ماذا في المقابلات، الاجتماعات، أو الحوارات. توقيت الكلمات يضيف بيانات توقيت دقيقة لكل كلمة، مما يكون مفيدًا لإنشاء الترجمة أو مزامنة النص مع الفيديو.

تتيح لك ميزة التحيز السياقي إطعام الذكاء الاصطناعي قائمة من الأسماء الصحيحة، أسماء العلامات التجارية، أو المصطلحات الفنية التي قد يتم سماعها بشكل خاطئ. أضف أسماء مثل Voxtral، ArtCoreAI، أو مصطلحات محددة في المجال، ويعزز الذكاء الاصطناعي دقة التعرف على تلك الكلمات.

تشمل التنسيقات المقبولة MP3، WAV، M4A، FLAC، OGG، MP4، MOV، وWebM — حتى 500 ميجابايت و3 ساعات لكل ملف. تعرض تصور الموجة الصوتية الصوت المحمل مع معلومات المدة والملف قبل الإرسال. تظهر النتائج كنص منسق مع زر نسخ بنقرة واحدة، ويتم حفظ النص للرجوع إليه لاحقًا.

التكلفة تعتمد على مدة الصوت — حوالي /bin/bash.003 لكل دقيقة — مما يجعلها واحدة من أكثر خيارات النسخ تكلفةً.

✦ Best Results Tips

🎧 الصوت النظيف يعطي نصوصًا نظيفة

تقلل الضوضاء الخلفية، والموسيقى، والصدى من دقة النسخ. للحصول على أفضل النتائج، استخدم تسجيلات تحتوي على كلام واضح وتداخل ضئيل. إذا كنت تقوم بالنسخ من الفيديو، تأكد من أن مسار الحوار بارز.

🗣️ قم بتمكين تحديد المتحدثين لعدة متحدثين

إذا كان تسجيلك يحتوي على أكثر من شخص يتحدث، قم بتشغيل تحديد المتحدثين. يقوم الذكاء الاصطناعي بفصل وتسمية كل متحدث، مما يجعل النص سهل المتابعة — وهو أمر ضروري للمقابلات، الاجتماعات، والبودكاست.

📌 استخدم التحيز السياقي للأسماء

أضف الأسماء الصحيحة، أسماء العلامات التجارية، والمصطلحات الفنية إلى حقل التحيز السياقي. الكلمات مثل Voxtral، ArtCoreAI، أو المصطلحات الصناعية غالبًا ما يتم سماعها بشكل خاطئ بدون هذه التلميحات — التحيز السياقي يحسن بشكل كبير الدقة للكلمات غير الشائعة.

🌍 قم بتعيين اللغة عند معرفتها

تعمل ميزة الكشف التلقائي بشكل جيد لتسجيلات لغة واحدة، ولكن إذا كنت تعرف اللغة، قم بتعيينها يدويًا. هذا يتجنب أخطاء الكشف في المقاطع القصيرة أو التسجيلات ذات الكلام المميز.

⏱️ توقيت الكلمات للترجمات

قم بتمكين توقيت الكلمات إذا كنت تخطط لإنشاء ترجمات أو مزامنة النص مع الفيديو. كل كلمة تحصل على علامة زمنية دقيقة، مما يسهل محاذاة النص مع المحتوى المرئي.

💰 تكلفة منخفضة للغاية

بتكلفة تقريبية تبلغ /bin/bash.003 لكل دقيقة، فإن نسخ ساعة كاملة من الصوت يكلف أقل من /bin/bash.20 في الاعتمادات. اختبر مع مقطع قصير أولاً للتحقق من الجودة، ثم قم بمعالجة التسجيلات الأطول بثقة.

Voxtral Transcribe — Available Models

Voxtral Mini Transcribe

BATCH Default

voxtral-mini-latest

State-of-the-art transcription with speaker diarization. 4% WER on FLEURS. $0.003/min.

Mode: transcribe

💰 Voxtral Transcribe — Pricing

Estimated cost

—

Failed jobs are automatically refunded