Qu'est-ce que la traduction parole-à-parole ?
La traduction parole-à-parole — parfois appelée traduction parlée ou S2ST — prend de l'audio dans une langue et restitue de l'audio dans une autre. L'entrée est une voix ; la sortie est également une voix. C'est la différence cruciale avec la traduction que la plupart des gens connaissent, où l'on tape du texte et où l'on lit le résultat, ou bien où une vidéo affiche une ligne de sous-titres à parcourir.
Un pipeline S2ST complet fait trois choses : il reconnaît les mots prononcés, en traduit le sens et synthétise une nouvelle voix qui les énonce à voix haute. VoxisLive exécute cette chaîne en continu, si bien que le résultat arrive à vos oreilles quelques secondes après l'orateur d'origine — assez près pour suivre une conversation, un cours ou une scène au moment où elle se déroule. Vos yeux restent sur le jeu, les diapositives ou la personne qui parle.
Pourquoi entendre vaut mieux que lire
Les sous-titres fonctionnent, mais ils ont un coût : attirer votre regard vers le bas de l'écran, déchiffrer le texte, revenir — plusieurs fois par minute. Dans une scène rapide, vous manquez les images ; dans un jeu, vous manquez l'instant ; dans une réunion, vous cessez de regarder l'orateur. Lire est une seconde tâche qui se superpose au fait de regarder.
La traduction parlée supprime cette tâche. La langue que vous comprenez arrive simplement par vos haut-parleurs tandis que tout ce que vous voyez reste devant vous — la même raison pour laquelle les événements en direct font appel à des interprètes qui parlent dans une oreillette plutôt que de faire défiler une transcription sur un mur. Les sous-titres existent toujours si vous les souhaitez : exportez une transcription TXT, SRT ou VTT après n'importe quelle session. Ils sont une trace, pas ce sur quoi vous vous appuyez sur le moment.
Un interprète simultané natif
VoxisLive capture l'audio système avec le WASAPI process-loopback de Windows — pas de câble virtuel, pas de pilote supplémentaire, pas de bot dans votre appel — et exclut sa propre sortie afin de ne jamais traduire la voix qu'il vient de produire.
La parole capturée est transmise à un modèle d'interprète simultané natif : plutôt que d'attendre la fin d'une phrase, il commence à traduire pendant que l'orateur parle encore et reste quelques secondes derrière — exactement comme un interprète humain travaille en cabine de conférence. Ce décalage court et régulier est ce qui rend la sortie vivante au lieu d'être saccadée.
Deux modes
En mode Vidéo / Jeu, la traduction est unidirectionnelle : l'autre voix arrive dans votre langue et l'audio d'origine est atténué pour que la traduction parlée ressorte clairement au premier plan. En mode Réunion, elle est bidirectionnelle : votre interlocuteur est traduit dans votre langue, et votre propre parole est traduite dans la sienne et injectée dans un microphone virtuel — sans aucun bot dans la liste des participants.
VoxisLive fonctionne sous Windows 10 et 11 et parle 79 langues cibles. Obtenez-le sur le Microsoft Store, ou exécutez gratuitement la version open source depuis GitHub avec votre propre clé.