¿Qué es la traducción de voz a voz?
La traducción de voz a voz — a veces llamada traducción hablada o S2ST — toma audio en un idioma y devuelve audio en otro. La entrada es una voz; la salida también es una voz. Esa es la diferencia crucial con la traducción que la mayoría conoce, donde escribes texto y lees el resultado, o un video muestra una línea de subtítulos que hay que leer.
Un pipeline completo de S2ST hace tres cosas: reconoce las palabras habladas, traduce su significado y sintetiza una nueva voz que las pronuncia en voz alta. VoxisLive ejecuta esta cadena de forma continua, así que el resultado llega a tus oídos unos segundos después del orador original — lo bastante cerca para seguir una conversación, una clase o una escena a medida que ocurre. Tus ojos permanecen en la partida, las diapositivas o la persona que habla.
Por qué escuchar supera a leer
Los subtítulos funcionan, pero te cuestan algo: llevar la mirada a la parte inferior de la pantalla, descifrar el texto, volver de golpe — muchas veces por minuto. En una escena rápida te pierdes lo visual; en un juego te pierdes el momento; en una reunión dejas de mirar al orador. Leer es una segunda tarea superpuesta a la de mirar.
La traducción hablada elimina esa tarea. El idioma que entiendes simplemente llega por tus altavoces mientras todo lo que ves permanece frente a ti — la misma razón por la que los eventos en vivo usan intérpretes que hablan a un auricular en lugar de desplazar una transcripción en una pared. Los subtítulos siguen existiendo si los quieres: exporta una transcripción TXT, SRT o VTT tras cualquier sesión. Son un registro, no aquello de lo que dependes en el momento.
Un intérprete simultáneo nativo
VoxisLive captura el audio del sistema con process-loopback WASAPI de Windows — sin cable virtual, sin driver adicional, sin bot en tu llamada — y excluye su propia salida para que nunca traduzca la voz que acaba de producir.
La voz capturada va a un modelo de intérprete simultáneo nativo: en lugar de esperar a que termine una frase, empieza a traducir mientras el orador todavía está hablando y se mantiene unos segundos por detrás — exactamente como trabaja un intérprete humano en una cabina de conferencias. Ese retardo corto y constante es lo que hace que la salida se sienta en vivo en lugar de entrecortada.
Dos modos
En el modo Video / Juego la traducción es unidireccional: la otra voz llega a tu idioma y el audio original se atenúa para que la traducción hablada quede claramente por encima. En el modo Reunión es bidireccional: la otra parte se traduce a tu idioma, y tu propia voz se traduce al suyo y se envía a un micrófono virtual — sin ningún bot en la lista de participantes.
VoxisLive funciona en Windows 10 y 11 y habla 79 idiomas de destino. Consíguelo en la Microsoft Store, o ejecuta gratis la versión de código abierto desde GitHub con tu propia clave.