Étape 1 — La capture audio, sans pilotes
VoxisLive utilise WASAPI loopback — la même API Windows Audio Session de bas niveau que les enregistreurs d'écran utilisent pour capturer « ce qui est en cours de lecture ». C'est une capacité native de Windows : pas de câbles audio virtuels, pas d'installation de pilote, aucune modification du routage audio. La capture est à latence nulle par rapport à la lecture et n'ajoute aucun artefact audible.
Les outils concurrents font généralement transiter l'audio par des périphériques virtuels comme VB-CABLE, qui exigent l'installation de pilotes (souvent avec droits administrateur et redémarrage) et peuvent entrer en conflit avec l'audio en mode exclusif, les pilotes ASIO ou les systèmes anti-triche. VoxisLive élimine entièrement cette catégorie de problèmes.
Étape 2 — Détection vocale sur l'appareil
L'application exécute une détection d'activité vocale (VAD) sur l'appareil pour séparer la parole du silence, du bruit de fond et de la musique — localement, sur votre CPU, sans aller-retour réseau. Seuls les segments identifiés comme de la parole humaine passent à la traduction, ce qui réduit la latence et préserve votre solde de minutes. La VAD suit également la sortie vocale de VoxisLive afin qu'il ne retraduise jamais sa propre voix.
Étape 3 — Traduction simultanée en une seule passe
Les segments de parole sont transmis à un modèle temps réel multimodal qui gère la reconnaissance, la traduction et la synthèse vocale en une seule passe à faible latence — condensant les trois appels réseau séquentiels d'un pipeline traditionnel (parole vers texte → traduction → texte vers parole) en un seul. Comme un interprète humain en cabine, il commence à traduire pendant que l'orateur parle encore.
Étape 4 — Restitution parlée avec ducking
La voix traduite est diffusée sur votre périphérique de sortie pendant que deux choses se produisent en parallèle : le ducking psychoacoustique baisse l'audio d'origine pendant que la traduction parle (à l'image de l'interprétation simultanée professionnelle), et la synchronisation de latence maintient chaque traduction alignée sur son segment de parole, pour que les longues sessions ne dérivent jamais.
