Cómo Funciona VoxisLive — Traducción de Voz en Tiempo Real en Windows
VoxisLive es una aplicación para Windows que captura el audio del sistema directamente —sin cable virtual, sin instalación de controladores— detecta el habla en el dispositivo, lo envía a Gemini Live para la traducción de voz a voz en tiempo real, y devuelve el resultado a través de tus altavoces con una voz natural mientras el audio original se reduce automáticamente. Así es como funciona:
¿Cómo captura VoxisLive el audio sin un cable de audio virtual?
VoxisLive lee el audio del sistema mediante WASAPI loopback —la misma API de bajo nivel de Windows que usan los grabadores de pantalla para capturar "lo que está sonando". Esto significa que no hay cable de audio virtual que instalar, ningún controlador VB-CABLE y ningún cambio en tu enrutamiento de audio. Sea lo que sea que esté reproduciendo Windows —un vídeo de YouTube, un juego, una llamada de Zoom, un stream de Twitch— Voxis intercepta ese audio a nivel del sistema operativo, antes de que salga de tu máquina. La captura tiene cero latencia relativa a la reproducción y no añade ningún artefacto audible a lo que otras aplicaciones escuchan.
WASAPI loopback es una capacidad nativa de Windows que existe desde Vista. Dado que VoxisLive lo utiliza a través de la API estándar de Windows, funciona en todas las configuraciones modernas de Windows 10 y 11 sin parches de compatibilidad ni controladores de terceros. No hay nada que desinstalar cuando hayas terminado, y la configuración de tus dispositivos de audio permanece exactamente igual que antes.
Por qué esto importa: Los métodos alternativos suelen requerir enrutar el audio a través de un dispositivo de audio virtual (VB-CABLE, Virtual Audio Cable, JACK para Windows). Estos introducen un salto de audio adicional, requieren instalación de controladores (lo cual necesita derechos de administrador y a veces un reinicio) y pueden causar conflictos con otro software. VoxisLive evita todo eso.
Lee más sobre cómo Voxis puede traducir el audio del sistema en Windows y el detalle técnico detrás de la traducción WASAPI loopback. Consulta VoxisLive para Windows — Descargar para empezar.
¿Cómo detecta VoxisLive el habla?
Antes de que cualquier audio salga de tu dispositivo, VoxisLive ejecuta la detección de actividad de voz (VAD) en el dispositivo para separar los segmentos de habla del silencio, el ruido de fondo y la música. Esta detección se ejecuta localmente —en tu CPU— sin ningún viaje de red. Solo los segmentos identificados como voz humana se envían al motor de traducción.
La VAD en el dispositivo cumple dos propósitos. Primero, reduce la latencia: la solicitud de traducción se activa en el momento en que se detecta el habla con confianza, no después de que expire un temporizador fijo. Segundo, reduce el coste: el silencio, la música en espera y el sonido ambiental nunca consumen capacidad de traducción, lo que mantiene el uso honesto de los minutos del plan gestionado. Si estás viendo una película y alguien pronuncia una frase de diez segundos, Voxis almacena ese segmento y lo envía como un enunciado coherente —no interrumpe el habla a mitad de una palabra.
La etapa VAD también resuelve el problema de auto-exclusión. VoxisLive rastrea su propia salida hablada y suprime esos fotogramas para que el bucle de traducción nunca escuche su propia voz y no la retraduzca. Esto es un requisito previo para un uso bidireccional fiable, y se gestiona completamente de forma local.
¿Cómo traduce VoxisLive en tiempo real?
Tras la detección del habla, el segmento de audio se pasa a Gemini Live —el modelo multimodal en tiempo real de Google— para la traducción de voz a voz. Gemini Live acepta la entrada de audio directamente y devuelve la salida de audio traducida, lo que significa que gestiona tanto la transcripción como la traducción en un único procesamiento de baja latencia, en lugar de encadenar un servicio de voz a texto separado con un servicio de traducción y otro de texto a voz.
Esta arquitectura es lo que hace posible la traducción de estilo simultáneo. Los pipelines de traducción tradicionales tienen tres llamadas de red secuenciales (ASR → MT → TTS), cada una añadiendo cientos de milisegundos de latencia. Gemini Live colapsa todas esas en una única llamada en streaming. VoxisLive gestiona el ciclo de vida de la sesión, transmitiendo el audio de entrada y poniendo en cola el audio traducido de salida. Aprende más sobre la traducción de voz a voz y por qué supera a los pipelines basados en texto.
VoxisLive es open-core: puedes traer tu propia clave API de Gemini (BYOK) sin coste de suscripción —la traducción se ejecuta contra tu propia cuota de Google AI. Si prefieres no gestionar claves API, los planes Creator ($19/mes) y Pro ($39/mes) incluyen minutos en la nube gestionados sin configuración requerida. Compara los planes en la página de precios.
¿Cómo reproduce VoxisLive la traducción?
El audio traducido de Gemini Live se reproduce a través de tu dispositivo de salida predeterminado con una voz sintetizada natural. Dos pasos de procesamiento de señal ocurren simultáneamente:
Reducción psicoacústica. En el momento en que el audio de traducción comienza a reproducirse, el audio fuente original se reduce brevemente en volumen (ducking). Esto refleja cómo trabajan los intérpretes simultáneos profesionales —la voz del intérprete se superpone al original en lugar de competir con él al mismo nivel. El resultado es que escuchas la traducción con claridad sin perder el contexto acústico del original (tono, emoción, identidad del hablante).
Sincronización de latencia. Voxis alinea la reproducción de la traducción con el segmento de habla al que corresponde, compensando el tiempo de procesamiento variable de la llamada a Gemini Live. Esto evita que la voz traducida se desincronice con la acción en pantalla durante sesiones largas.
La calidad de la voz de salida está determinada por la síntesis de Gemini Live, que produce una prosodia similar a la humana. Voxis no aplica compresión ni ecualización adicional que pueda degradar la claridad de la voz.
¿Es VoxisLive interpretación simultánea — es realmente en tiempo real?
VoxisLive es casi simultáneo, no sin retardo. Existe una latencia mínima inherente entre que un hablante termina una frase y Voxis pronuncia la traducción —este es el tiempo necesario para que la VAD confirme que el enunciado ha terminado, más el viaje de ida y vuelta de Gemini Live. En la práctica, en condiciones normales de red, esto es aproximadamente uno o dos segundos después del habla original.
Para comparar, los intérpretes simultáneos humanos profesionales en una cabina de la ONU suelen trabajar dos a cuatro segundos detrás del hablante. VoxisLive opera en ese mismo rango o más rápido, dependiendo de la longitud del enunciado y la latencia de la red. No es adecuado para aplicaciones que requieren cero latencia (por ejemplo, SLAs de subtitulación en tiempo real), pero está bien dentro del umbral que hace que los medios, las reuniones y los juegos sean cómodos.
La calidad de la traducción escala con la longitud del enunciado. Voxis recopila un enunciado completo antes de traducir, lo que le da a Gemini Live suficiente contexto para una salida precisa. Los fragmentos muy cortos ("Sí", "Bien", "Gracias") se agrupan o posponen para evitar traducciones de una sola palabra de baja calidad.
Explora cómo Voxis gestiona las reuniones en vivo y la traducción de audio de juegos.
¿Y las reuniones — usa VoxisLive un bot para unirse a las llamadas?
No. VoxisLive nunca se une a una llamada como participante bot, solicita permisos de anfitrión de reunión ni interactúa con la aplicación de reuniones de ninguna manera. Lee el audio que la aplicación de reuniones (Zoom, Teams, Google Meet, Discord) ya está reproduciendo en tus altavoces vía WASAPI loopback, exactamente como haría cualquier software de grabación. Desde la perspectiva de la plataforma de reuniones, VoxisLive no existe.
Esto tiene tres consecuencias prácticas. Primero, los demás participantes nunca ven una entrada de bot en la lista de participantes. Segundo, VoxisLive funciona con todas las plataformas de reuniones sin necesitar una integración específica de la plataforma —si reproduce audio en Windows, Voxis puede traducirlo. Tercero, no hay dependencia de APIs de plataforma que puedan ser revocadas o limitadas por tasa.
El modo de reunión bidireccional funciona de la misma manera: Voxis captura ambas direcciones desde el mix de audio del sistema. Distingue sus propios fotogramas de salida (usando el mecanismo de auto-exclusión descrito anteriormente) para que el hablante B no escuche una doble traducción de la respuesta que Voxis acaba de sintetizar para el hablante A.
Consulta la página de casos de uso de reuniones de VoxisLive para un tutorial paso a paso.
Privacidad y BYOK — ¿adónde va mi audio?
Con BYOK (tu clave API de Gemini): El audio va desde tu dispositivo directamente al endpoint de la API de Google AI asociado con tu propia cuenta de Google. Los servidores de VoxisLive no están en el camino. El manejo de datos de Google para la API de Gemini se rige por los propios términos y principios de IA de Google. VoxisLive nunca almacena, registra ni procesa ese audio.
Con planes gestionados (Creator / Pro): Los segmentos de audio viajan a la infraestructura en la nube de VoxisLive, que actúa como proxy de la llamada a Gemini Live. VoxisLive procesa el audio en tránsito y no retiene el contenido de audio después de que finaliza la sesión de traducción. Consulta la Política de Privacidad para el calendario completo de retención de datos.
En ambos modos, la etapa VAD en el dispositivo significa que el silencio y el audio que no es habla nunca salen de tu máquina. Solo los segmentos de habla confirmados se transmiten.
VoxisLive es una aplicación local de un solo usuario. No graba audio ambiental en segundo plano, no se ejecuta como servicio del sistema a menos que lo configures así, y no tiene acceso al micrófono (captura el audio de salida del sistema, no la entrada del micrófono).
Preguntas comunes
¿Funciona VoxisLive con auriculares y audio Bluetooth?
Sí. WASAPI loopback captura el mix de audio a nivel del mezclador de Windows, antes de que se envíe a cualquier dispositivo de salida específico. Cambiar entre auriculares, altavoces o Bluetooth no afecta a la captura. La salida de traducción sigue tu dispositivo de reproducción predeterminado.
¿Funcionará si el audio original no está en inglés?
VoxisLive admite audio fuente en múltiples idiomas. Gemini Live gestiona la detección del idioma fuente internamente. Configuras tu idioma de destino (salida) y Voxis se encarga del resto independientemente del idioma en que esté la fuente.
¿Necesito dejar abierta una terminal o símbolo del sistema?
No. VoxisLive se ejecuta como una aplicación estándar de Windows con una interfaz gráfica. No se requiere línea de comandos para el uso normal.
¿Hay una versión gratuita?
Sí. El nivel Developer es gratuito y utiliza tu propia clave API de Gemini (BYOK). Google proporciona cuota de API gratuita para Gemini, por lo que la traducción puede ser genuinamente gratuita dependiendo de tu uso. Descarga VoxisLive o consulta todos los planes.
¿Listo para probarlo? Descarga VoxisLive para Windows — gratis para empezar, sin cable virtual requerido.
Escucha cada idioma, en tiempo real.
DescargarPreguntas frecuentes
¿Necesita VoxisLive un cable de audio virtual o instalación de controladores?
No. VoxisLive captura el audio del sistema a través del WASAPI loopback nativo de Windows —la misma API que usan los grabadores de pantalla. No hay VB-CABLE, ningún controlador que instalar ni cambios en tu enrutamiento de audio, por lo que no hay nada que desinstalar cuando hayas terminado.
¿Qué tan en tiempo real es la traducción?
VoxisLive es casi simultáneo, no sin retardo. En condiciones normales de red, pronuncia la traducción aproximadamente uno o dos segundos después del original —el mismo rango en el que trabajan los intérpretes humanos profesionales— después de que la detección de voz en el dispositivo confirma el enunciado y Gemini Live devuelve el audio traducido.
¿Entra VoxisLive a mis reuniones como un bot?
No. VoxisLive nunca se une a una llamada como participante ni solicita permisos de anfitrión. Lee el audio que la aplicación de reuniones ya reproduce en tus altavoces, de modo que los demás participantes nunca ven un bot en la lista y funciona con Zoom, Teams, Google Meet y Discord sin ninguna integración específica de la plataforma.