Skip to main content
كل المقالات
نُشر في7 دقيقة قراءة

Voxtral مقابل Whisper: أي محرّك تفريغ صوتي لوكيل متعدّد اللغات

Voxtral من Mistral وWhisper من OpenAI هما المحرّكان الأكثر استعمالًا في التعرّف على الكلام عام 2026. إليك مقارنة صادقة حول التأخير، الجودة متعدّدة اللغات، السعر والاستضافة.

بالنسبة لوكيل صوتي مطلوب منه فهم الفرنسية والعربية والإنجليزية في الوقت الحقيقي، فإن اختيار محرّك التفريغ مهمّ بقدر اختيار النموذج اللغوي. خياران مُهيمنان: Voxtral من Mistral وWhisper من OpenAI. إليك ما يميزهما فعلًا.

التأخير — الفرق مسموع#

Voxtral mini-transcribe يصل إلى زمن استجابة بين 200 و400 ميلّي ثانية على صوت قصير. Whisper-large-v3 المُستضاف ذاتيًا يقع بين 300 و500 ميلّي ثانية على وحدة معالجة الرسومات، إضافةً إلى الشبكة. في المحادثة الحيّة، 200 ميلّي ثانية تجعل الوكيل أكثر سلاسة. Whisper-large يبقى أدقّ على الصوت الطويل، لكن في تبادل الأدوار الهاتفي، Voxtral يفوز.

الجودة متعدّدة اللغات#

  • الفرنسية القياسية: تعادل، نسبة خطأ أقلّ من 4 % عند الطرفين.
  • الإنجليزية: Whisper-large يحتفظ بهامش طفيف (تدريب أوسع).
  • العربية الفصحى: Voxtral mini-2602 أفضل ضبطًا، أخطاء نقحرة أقل.
  • اللهجات العربية: قد يتعثّر كلاهما، يُستحسن وجود تحويل بشري.
  • التبديل بين اللغات (فر↔عر↔إن في نفس الجملة): Voxtral أكثر استقرارًا.

الاستضافة والامتثال#

Whisper مفتوح المصدر يُستضاف ذاتيًا على أي وحدة GPU حديثة — ممتاز لسيادة البيانات. Voxtral افتراضيًا واجهة برمجية من Mistral مُستضافة في الاتحاد الأوروبي — مريحة لكن مع تبعية خارجية. الخياران قابلان للدفاع عنهما وفق GDPR، والمهمّ هو ما يلتزم به نص سياسة الخصوصية.

السعر#

Voxtral يحتسب بالدقيقة الصوتية (0.005-0.01 دولار/دقيقة حسب النموذج). Whisper المُستضاف ذاتيًا يكلّف وحدة GPU (نحو 0.50-1.50 دولار للساعة حسب المزوّد)، ويصبح أرخص بعد 80 ساعة شهرية تقريبًا. تحت هذا الحجم، Voxtral أبسط وأرخص شاملًا.

إعدادنا في فوكازاي#

تسلسل: Voxtral أولًا (نموذج لكل لغة)، ثم faster-whisper medium كاحتياطي مُستضاف على Docker. هذا التسلسل يحافظ على أقل من 600 ميلّي ثانية p95 في إنتاج ثلاثي اللغات، ويبقى حيًا حتى عند تعطّل واجهة Mistral. الشهر الأول مجاني لتجربته بظروف مكالمات حقيقية.