Comment fonctionne VoxisLive — Traduction vocale en temps réel sur Windows

VoxisLive est une application Windows qui capture l'audio système directement — sans câble virtuel, sans installation de pilote — détecte la parole sur l'appareil, l'envoie à Gemini Live pour une traduction speech-to-speech en temps réel, et restitue le résultat via vos haut-parleurs dans une voix naturelle, tandis que l'audio original est automatiquement atténué. Voici comment ça fonctionne :

Comment VoxisLive capture-t-il l'audio sans câble audio virtuel ?

VoxisLive lit votre audio système via WASAPI loopback — la même API Windows Audio Session de bas niveau qu'utilisent les logiciels d'enregistrement d'écran pour capturer « ce qui est en cours de lecture ». Cela signifie qu'il n'y a pas de câble audio virtuel à installer, pas de pilote VB-CABLE, et aucune modification de votre routage audio. Tout ce qui est en cours de lecture sur Windows — une vidéo YouTube, un jeu, un appel Zoom, un stream Twitch — Voxis intercepte cet audio au niveau du système d'exploitation, avant qu'il ne quitte votre machine. La capture est à latence nulle par rapport à la lecture et n'ajoute aucun artefact audible à ce que les autres applications entendent.

WASAPI loopback est une capacité Windows native qui existe depuis Vista. Parce que VoxisLive l'appelle via l'API Windows standard, il fonctionne sur toutes les configurations modernes de Windows 10 et 11 sans correctifs de compatibilité ni pilotes tiers. Il n'y a rien à désinstaller une fois terminé, et votre configuration de périphérique audio reste exactement comme elle était.

Pourquoi c'est important pour vous : Les approches concurrentes nécessitent généralement de router l'audio via un périphérique audio virtuel (VB-CABLE, Virtual Audio Cable, JACK pour Windows). Celles-ci introduisent un saut audio supplémentaire, nécessitent l'installation d'un pilote (ce qui requiert des droits d'administrateur et parfois un redémarrage), et peuvent provoquer des conflits avec d'autres logiciels. VoxisLive contourne tout cela.

En savoir plus sur comment Voxis peut traduire l'audio système sur Windows et les détails techniques derrière la traduction WASAPI loopback. Voir VoxisLive pour Windows — Télécharger pour commencer.

Comment VoxisLive détecte-t-il la parole ?

Avant qu'un audio ne quitte votre appareil, VoxisLive exécute une détection d'activité vocale (VAD) sur l'appareil pour séparer les segments de parole du silence, du bruit de fond et de la musique. Cette détection s'exécute localement — sur votre CPU — sans aller-retour réseau. Seuls les segments identifiés comme contenant de la parole humaine sont transmis au moteur de traduction.

La VAD sur l'appareil remplit deux objectifs. Premièrement, elle réduit la latence : la demande de traduction est déclenchée au moment où la parole est détectée avec certitude, et non après l'expiration d'un minuteur fixe. Deuxièmement, elle réduit les coûts : le silence, la musique d'attente et les sons ambiants ne consomment jamais de capacité de traduction, ce qui maintient honnête l'utilisation des minutes du plan géré. Si vous regardez un film et que quelqu'un prononce une réplique de dix secondes, Voxis met en mémoire tampon ce segment et le distribue comme un énoncé cohérent — il ne coupe pas la parole en milieu de mot.

L'étape VAD gère également le problème d'auto-exclusion. VoxisLive suit sa propre sortie parlée et supprime ces trames afin que la boucle de traduction n'entende jamais sa propre voix et ne la re-traduise pas. C'est un prérequis pour une utilisation bidirectionnelle fiable, et cela est géré entièrement localement.

Comment VoxisLive traduit-il en temps réel ?

Après la détection vocale, le segment audio est transmis à Gemini Live — le modèle multimodal en temps réel de Google — pour une traduction speech-to-speech. Gemini Live accepte directement l'audio en entrée et renvoie l'audio traduit en sortie, ce qui signifie qu'il gère à la fois la transcription et la traduction en un seul passage à faible latence, plutôt que d'enchaîner un service speech-to-text séparé avec un service de traduction et un service text-to-speech.

C'est cette architecture qui rend possible la traduction de style simultané. Les pipelines de traduction traditionnels effectuent trois appels réseau séquentiels (ASR → MT → TTS), chacun ajoutant des centaines de millisecondes de latence. Gemini Live les condense en un seul appel en streaming. VoxisLive gère le cycle de vie de la session, diffuse l'audio en entrée et met en file d'attente l'audio traduit en sortie. En savoir plus sur la traduction speech-to-speech et pourquoi elle surpasse les pipelines basés sur le texte.

VoxisLive est open-core : vous pouvez apporter votre propre clé API Gemini (BYOK) sans coût d'abonnement — la traduction s'exécute sur votre propre quota Google AI. Si vous préférez ne pas gérer les clés API, les plans Creator (19 $/mois) et Pro (39 $/mois) incluent des minutes cloud gérées sans configuration requise. Comparer les plans sur la page tarifs.

Comment VoxisLive restitue-t-il la traduction ?

L'audio traduit par Gemini Live est restitué via votre périphérique de sortie par défaut dans une voix synthétisée naturelle. Deux étapes de traitement du signal se produisent simultanément :

Atténuation psychoacoustique. Au moment où l'audio de traduction commence à être diffusé, l'audio source original est brièvement réduit en volume (atténué). Cela reflète le fonctionnement des interprètes simultanés professionnels — la voix de l'interprète chevauche l'original plutôt que de rivaliser avec lui à égale intensité. Le résultat est que vous entendez clairement la traduction sans perdre le contexte acoustique de l'original (ton, émotion, identité du locuteur).

Synchronisation de la latence. Voxis aligne la lecture de la traduction avec le segment de parole auquel elle correspond, compensant le temps de traitement variable de l'appel Gemini Live. Cela empêche la voix traduite de se désynchroniser avec l'action à l'écran au cours de longues sessions.

La qualité de la voix de sortie est régie par la synthèse de Gemini Live, qui produit une prosodie semblable à celle d'un humain. Voxis n'applique pas de compression ou d'égalisation supplémentaire qui dégraderait la clarté de la voix.

VoxisLive est-il une interprétation simultanée — est-ce vraiment en temps réel ?

VoxisLive est quasi-simultané, pas sans délai. Il existe une latence minimale inhérente entre la fin d'une phrase du locuteur et la restitution de la traduction par Voxis — c'est le temps nécessaire à la VAD pour confirmer que l'énoncé est terminé, plus l'aller-retour de Gemini Live. En pratique, dans des conditions réseau normales, cela représente environ une à deux secondes après la parole originale.

Pour comparaison, les interprètes simultanés humains professionnels dans une cabine à l'ONU travaillent généralement deux à quatre secondes après le locuteur. VoxisLive opère dans cette même plage ou plus rapidement, selon la longueur de l'énoncé et la latence réseau. Il ne convient pas aux applications nécessitant une latence nulle (comme les SLA de sous-titrage en temps réel), mais il est bien en deçà du seuil qui rend les médias, les réunions et les jeux confortables.

La qualité de traduction s'améliore avec la longueur des énoncés. Voxis collecte un énoncé complet avant de traduire, ce qui donne à Gemini Live suffisamment de contexte pour une sortie précise. Les fragments très courts (« Ouais », « D'accord », « Merci ») sont regroupés ou différés pour éviter des traductions de mauvaise qualité d'un seul mot.

Découvrez comment Voxis gère les réunions en direct et la traduction audio de jeux.

Et les réunions — VoxisLive utilise-t-il un bot pour rejoindre les appels ?

Non. VoxisLive ne rejoint jamais un appel en tant que participant bot, ne demande pas de permissions d'hôte de réunion, et n'interagit d'aucune façon avec l'application de réunion. Il lit l'audio que l'application de réunion (Zoom, Teams, Google Meet, Discord) diffuse déjà sur vos haut-parleurs via WASAPI loopback, exactement comme le ferait n'importe quel logiciel d'enregistrement. Du point de vue de la plateforme de réunion, VoxisLive n'existe pas.

Cela a trois conséquences pratiques. Premièrement, les autres participants ne voient jamais d'entrée bot dans la liste des participants. Deuxièmement, VoxisLive fonctionne avec chaque plateforme de réunion sans nécessiter d'intégration spécifique — s'il diffuse de l'audio sur Windows, Voxis peut le traduire. Troisièmement, il n'y a aucune dépendance aux API de plateforme qui peuvent être révoquées ou soumises à des limites de débit.

Le mode réunion bidirectionnel fonctionne de la même façon : Voxis capture les deux directions depuis le mix audio système. Il distingue ses propres trames de sortie (en utilisant le mécanisme d'auto-exclusion décrit ci-dessus) afin que l'interlocuteur B n'entende pas une double traduction de la réponse que Voxis vient de synthétiser pour l'interlocuteur A.

Voir la page de cas d'usage réunions de VoxisLive pour une présentation étape par étape.

Confidentialité et BYOK — où va mon audio ?

Avec BYOK (votre clé API Gemini) : L'audio va de votre appareil directement vers l'endpoint de l'API Google AI associé à votre propre compte Google. Les serveurs de VoxisLive ne sont pas dans le chemin. La gestion des données par Google pour l'API Gemini est régie par les propres conditions et principes d'IA de Google. VoxisLive ne stocke, ne journalise ni ne traite jamais cet audio.

Avec les plans gérés (Creator / Pro) : Les segments audio transitent par l'infrastructure cloud de VoxisLive, qui achemine l'appel vers Gemini Live. VoxisLive traite l'audio en transit et ne conserve pas le contenu audio après la fin de la session de traduction. Voir la Politique de confidentialité pour le calendrier complet de conservation des données.

Dans les deux modes, l'étape VAD sur l'appareil signifie que le silence et l'audio non vocal ne quittent jamais votre machine. Seuls les segments de parole confirmés sont transmis.

VoxisLive est une application locale à utilisateur unique. Il n'enregistre pas l'audio ambiant en arrière-plan, ne s'exécute pas en tant que service système sauf si vous le configurez ainsi, et n'a pas accès au microphone (il capture l'audio de sortie du système, pas l'entrée du microphone).

Questions fréquentes

VoxisLive fonctionne-t-il avec des écouteurs et de l'audio Bluetooth ?

Oui. WASAPI loopback capture le mix audio au niveau du mixeur Windows, avant qu'il ne soit envoyé à un périphérique de sortie spécifique. Basculer entre des écouteurs, des haut-parleurs ou du Bluetooth n'affecte pas la capture. La sortie de traduction suit votre périphérique de lecture par défaut.

Fonctionnera-t-il si l'audio original n'est pas en anglais ?

VoxisLive prend en charge l'audio source en plusieurs langues. Gemini Live gère la détection de la langue source en interne. Vous configurez votre langue cible (sortie) et Voxis s'occupe du reste, quelle que soit la langue de la source.

Dois-je laisser un terminal ou une invite de commandes ouverts ?

Non. VoxisLive s'exécute comme une application Windows standard avec une interface graphique. Aucune ligne de commande n'est requise pour une utilisation normale.

Existe-t-il une version gratuite ?

Oui. Le niveau Developer est gratuit et utilise votre propre clé API Gemini (BYOK). Google fournit un quota API gratuit pour Gemini, donc la traduction peut être véritablement gratuite selon votre utilisation. Télécharger VoxisLive ou voir tous les plans.

Prêt à l'essayer ? Télécharger VoxisLive pour Windows — gratuit pour commencer, aucun câble virtuel requis.

Entendez chaque langue, en temps réel.

Télécharger

Questions fréquemment posées

VoxisLive a-t-il besoin d'un câble audio virtuel ou de l'installation d'un pilote ?

Non. VoxisLive capture l'audio système via le WASAPI loopback natif de Windows — la même API qu'utilisent les logiciels d'enregistrement d'écran. Il n'y a pas de VB-CABLE, pas de pilote à installer, et aucune modification de votre routage audio, il n'y a donc rien à désinstaller une fois terminé.

À quel point la traduction est-elle en temps réel ?

VoxisLive est quasi-simultané, pas sans délai. Dans des conditions réseau normales, il restitue la traduction environ une à deux secondes après l'original — la même plage que les interprètes humains professionnels — après que la détection vocale sur l'appareil confirme l'énoncé et que Gemini Live renvoie l'audio traduit.

VoxisLive rejoint-il mes réunions en tant que bot ?

Non. VoxisLive ne rejoint jamais un appel en tant que participant ni ne demande des permissions d'hôte. Il lit l'audio que l'application de réunion diffuse déjà sur vos haut-parleurs, de sorte que les autres participants ne voient jamais de bot dans la liste, et il fonctionne avec Zoom, Teams, Google Meet et Discord sans aucune intégration spécifique à la plateforme.