Publié le15 juin 20267 min de lecture

Comment fonctionne un agent vocal IA : du décrochage à la mise à jour du CRM

On démonte le pipeline complet d'un agent vocal IA — décrochage, transcription, raisonnement, voix de réponse, intégrations. Sans jargon, ce qui se passe vraiment en moins d'une seconde.

Quand un client appelle votre numéro, ce que l'agent vocal IA fait en arrière-plan ressemble à un orchestre dont chaque musicien joue 200 ms. Voici le déroulé exact, étape par étape, pour comprendre où votre prix est dépensé et où la qualité se gagne ou se perd.

Étape 1 — Décrochage et routing#

Votre numéro est attaché à un opérateur télécoms (Twilio, Vonage, OVH). Quand l'appel arrive, l'opérateur le route via SIP/WebRTC vers la plateforme d'agent (VocazAI, Vapi, Retell). Cette étape coûte 50-100 ms et coûte $0.002-$0.005 par minute en frais télécoms.

Étape 2 — Transcription en streaming#

Le flux audio est envoyé en temps réel à un moteur de reconnaissance vocale (Voxtral, Whisper). Il transcrit par paquets de 200-300 ms. Pas d'attente de fin de phrase — l'agent commence à comprendre dès que vous dites les 3 premiers mots.

Étape 3 — Raisonnement (le LLM)#

La transcription part dans un LLM (GPT-4o, Mistral, Claude) avec un prompt système qui décrit votre entreprise, vos règles et vos outils. Le modèle décide : répondre, poser une question, appeler une fonction (vérifier l'agenda, créer un RDV), ou transférer.

Étape 4 — Synthèse vocale#

Texte de réponse → moteur TTS (Piper, ElevenLabs, OpenAI TTS).
Voix par langue (français Siwis, anglais Lessac, arabe Kareem).
Émission en flux continu pour réduire la latence perçue.
Total étape : 80-200 ms.

Étape 5 — Intégrations (fonctions outils)#

Si l'agent doit poser une action (créer un RDV, consulter une dispo, créer un lead CRM), il appelle une fonction côté serveur. Le résultat revient en JSON, le LLM le formule en réponse orale. C'est ici que se branchent vos Google Calendar, HubSpot, Pipedrive, votre PMS.

Le résumé final#

Pickup (100 ms) + STT (300 ms) + LLM (400 ms) + TTS (150 ms) + réseau (50 ms) = ~1000 ms par tour de parole. Bien optimisé, vous descendez sous 600 ms — le seuil où l'agent ne paraît plus 'IA'. Premier mois VocazAI gratuit pour mesurer ce que ça donne sur vos vrais appels.

Top