كيف يعمل الوكيل الصوتي الذكي: من رفع المكالمة إلى تحديث نظام إدارة الزبائن
نُفكّك السلسلة الكاملة للوكيل الصوتي الذكي — رفع المكالمة، التفريغ، الاستدلال، صوت الردّ، التكاملات. بلا لغة تقنية — ما يحدث فعلًا في أقل من ثانية.
حين يتصل زبون برقمك، ما يفعله الوكيل الصوتي الذكي في الخلفية يُشبه أوركسترا يلعب فيها كل عازف لمدة 200 ميلّي ثانية. إليك التسلسل الدقيق، خطوة بخطوة، لتفهم أين يُصرف سعرك وأين تُكسَب الجودة أو تُفقد.
الخطوة 1 — رفع المكالمة والتوجيه#
رقمك مرتبط بمشغّل اتصالات (Twilio، Vonage، OVH). حين تصل المكالمة، يُوجّهها المشغّل عبر SIP/WebRTC إلى منصّة الوكيل (VocazAI، Vapi، Retell). تكلف هذه الخطوة 50-100 ميلّي ثانية ورسوم اتصالات 0.002-0.005 دولار للدقيقة.
الخطوة 2 — التفريغ المتدفّق#
تيار الصوت يُرسل في الوقت الحقيقي إلى محرّك التعرّف على الكلام (Voxtral، Whisper). يُفرّغ على دفعات من 200-300 ميلّي ثانية. لا انتظار لنهاية الجملة — يبدأ الوكيل في الفهم بمجرّد أن تقول الكلمات الثلاث الأولى.
الخطوة 3 — الاستدلال (النموذج اللغوي)#
النص يذهب إلى نموذج لغوي (GPT-4o، Mistral، Claude) مع تعليمات نظام تصف شركتك وقواعدك وأدواتك. يقرّر النموذج: الردّ، طرح سؤال، استدعاء دالّة (التحقق من الأجندة، حجز موعد)، أو التحويل.
الخطوة 4 — تركيب الصوت#
- نصّ الردّ → محرّك TTS (Piper، ElevenLabs، OpenAI TTS).
- صوت لكل لغة (الفرنسية Siwis، الإنجليزية Lessac، العربية Kareem).
- إخراج متدفّق لتقليل التأخير المُدرَك.
- إجمالي الخطوة: 80-200 ميلّي ثانية.
الخطوة 5 — التكاملات (دوال الأدوات)#
إذا احتاج الوكيل إلى فعل (حجز، تحقق من توفر، دفع زبون في إدارة العلاقات)، فإنه يستدعي دالة على الخادم. تعود النتيجة بصيغة JSON، فيُصيغها النموذج صوتيًا. هنا تتّصل Google Calendar، HubSpot، Pipedrive، ونظام عيادتك.
الحصيلة النهائية#
رفع المكالمة (100 ميلّي ثانية) + التفريغ (300) + النموذج اللغوي (400) + التركيب الصوتي (150) + الشبكة (50) = نحو 1000 ميلّي ثانية لكل دور كلام. مع الضبط الجيد، تنزل دون 600 — العتبة التي لا يبدو فيها الوكيل «ذكاء اصطناعيًا». الشهر الأول من فوكازاي مجاني لقياس ما يعطيه ذلك على مكالماتك الحقيقية.