Publié le15 juin 20266 min de lecture

Latence et naturel d'un agent vocal IA : comment on descend sous 600 ms

Sous 600 ms, l'oreille humaine cesse d'entendre une IA. Au-dessus, ça paraît robotique. Voici les leviers techniques pour franchir le seuil — et pourquoi c'est ce qui sépare un agent qui convertit d'un agent qui fait raccrocher.

Dans une vraie conversation humaine, le temps entre la fin de votre phrase et le début de la mienne tourne autour de 200-400 ms. Au-delà, mon silence devient inconfortable. Pour un agent vocal IA, c'est exactement le même seuil — et c'est ce qui sépare un agent qui convertit d'un agent qui fait raccrocher.

Pourquoi 600 ms est le bon objectif#

Pas 1 seconde, pas 300 ms : 600 ms. Sous ce seuil, la conversation paraît naturelle au sens neurologique du terme. Au-dessus, le cerveau de votre client commence à formuler des hypothèses — « il n'a pas compris », « il bug », « est-ce que je dois répéter ». Vous perdez le client mentalement avant le mot suivant.

Les 5 sources de latence#

Détection de fin de parole (VAD) : 100-200 ms si mal réglée, 50 ms si bien.
Transcription (STT) : 200-400 ms selon le modèle et le streaming.
Inférence LLM : 300-800 ms — souvent le pic.
Synthèse vocale (TTS) : 100-300 ms selon la voix et le streaming.
Réseau aller-retour : 30-150 ms selon la région du provider.

Les 4 leviers concrets#

1. STT streaming au lieu de bufferisation — l'agent commence à comprendre dès les 3 premiers mots. 2. LLM en streaming avec une réponse courte par défaut. 3. TTS qui commence à parler dès le premier token reçu. 4. Co-localisation : LLM et TTS dans la même région du cloud que votre opérateur télécoms.

Le piège du naturel#

Vous pouvez descendre à 300 ms et avoir un agent qui paraît robotique quand même — parce qu'il enchaîne ses phrases sans respirer. Le vrai naturel ajoute 80 ms de pause stratégique, des « euh » discrets, et un débit qui ralentit sur les chiffres. C'est délibérément plus lent pour paraître plus humain.

Ce qu'on tient chez VocazAI#

p50 à 480 ms, p95 à 620 ms en production trilingue avec la cascade Voxtral + faster-whisper + Mistral + Piper. C'est sous le seuil sur la majorité des appels — et au-dessus seulement quand la conversation entre dans une zone vraiment difficile (chiffres longs, code-switching agressif). Premier mois gratuit pour mesurer sur vos appels.

Top