Comment fonctionne VoxisLive — Traduction vocale en temps réel sans pilote sur Windows

Étape 1 — La capture audio, sans pilotes

VoxisLive utilise WASAPI loopback — la même API Windows Audio Session de bas niveau que les enregistreurs d'écran utilisent pour capturer « ce qui est en cours de lecture ». C'est une capacité native de Windows : pas de câbles audio virtuels, pas d'installation de pilote, aucune modification du routage audio. La capture est à latence nulle par rapport à la lecture et n'ajoute aucun artefact audible.

Les outils concurrents font généralement transiter l'audio par des périphériques virtuels comme VB-CABLE, qui exigent l'installation de pilotes (souvent avec droits administrateur et redémarrage) et peuvent entrer en conflit avec l'audio en mode exclusif, les pilotes ASIO ou les systèmes anti-triche. VoxisLive élimine entièrement cette catégorie de problèmes.

Étape 2 — Détection vocale sur l'appareil

L'application exécute une détection d'activité vocale (VAD) sur l'appareil pour séparer la parole du silence, du bruit de fond et de la musique — localement, sur votre CPU, sans aller-retour réseau. Seuls les segments identifiés comme de la parole humaine passent à la traduction, ce qui réduit la latence et préserve votre solde de minutes. La VAD suit également la sortie vocale de VoxisLive afin qu'il ne retraduise jamais sa propre voix.

Étape 3 — Traduction simultanée en une seule passe

Les segments de parole sont transmis à un modèle temps réel multimodal qui gère la reconnaissance, la traduction et la synthèse vocale en une seule passe à faible latence — condensant les trois appels réseau séquentiels d'un pipeline traditionnel (parole vers texte → traduction → texte vers parole) en un seul. Comme un interprète humain en cabine, il commence à traduire pendant que l'orateur parle encore.

Étape 4 — Restitution parlée avec ducking

La voix traduite est diffusée sur votre périphérique de sortie pendant que deux choses se produisent en parallèle : le ducking psychoacoustique baisse l'audio d'origine pendant que la traduction parle (à l'image de l'interprétation simultanée professionnelle), et la synchronisation de latence maintient chaque traduction alignée sur son segment de parole, pour que les longues sessions ne dérivent jamais.

Quelle est sa vitesse, réellement ?

VoxisLive est quasi simultané, pas à délai nul : généralement une à deux secondes derrière la parole d'origine, selon la longueur des énoncés et la latence réseau. À titre de référence, les interprètes simultanés humains professionnels travaillent deux à quatre secondes derrière l'orateur — VoxisLive opère dans cette plage, voire plus vite. Les fragments très courts sont regroupés pour éviter les mauvaises traductions mot à mot.

Des réunions sans bot

VoxisLive ne rejoint jamais un appel en tant que participant, ne demande jamais de permissions à l'hôte et ne touche jamais à l'application de réunion. Il lit l'audio déjà diffusé sur vos haut-parleurs, ce qui le rend invisible pour les autres participants et identique sur Zoom, Teams, Google Meet, Webex et Discord. En mode bidirectionnel, il traduit aussi votre propre parole dans la langue de la réunion via un microphone virtuel.

Ce qui quitte votre machine

Avec la version open source BYOK, l'audio va directement à l'API de Google sous votre propre clé — les serveurs de VoxisLive ne sont jamais impliqués. Avec l'application gérée du Store, les segments de parole détectés sont relayés vers le modèle et aucun audio n'est conservé après la fin de la session. Le silence et l'audio non vocal ne quittent d'ailleurs jamais votre machine, grâce à la VAD sur l'appareil.

FAQ

Questions fréquentes

01Ai-je besoin de VB-CABLE ou d'un pilote audio virtuel ?

Non. VoxisLive utilise WASAPI loopback, une API Windows native disponible sous Windows 10 et 11. Il n'y a rien à installer ni à router, et aucun nouveau périphérique n'apparaît dans vos paramètres audio.

02VoxisLive rejoint-il ma réunion comme un bot ?

Jamais. Il capture votre propre audio système localement : aucun troisième participant n'apparaît dans Zoom, Teams ou Meet, aucune demande d'autorisation ne se déclenche et aucune intégration à la plateforme n'est nécessaire.

03Quel délai dois-je prévoir ?

Environ une à deux secondes derrière la parole d'origine, après détection vocale et traitement par l'IA — la même plage que les interprètes simultanés humains professionnels, voire plus rapide.

04La qualité de la traduction dépend-elle de la longueur des énoncés ?

Oui — les énoncés plus longs se traduisent mieux. Les fragments très courts sont regroupés ou différés pour éviter les mauvaises traductions mot à mot.

De vos haut-parleurs à votre langue en deux secondes environ.