Paso 1 — Captura de audio, sin drivers
VoxisLive usa loopback WASAPI, la misma API de sesión de audio de Windows de bajo nivel que usan los grabadores de pantalla para capturar “lo que está sonando”. Es una capacidad nativa de Windows: sin cables de audio virtuales, sin instalación de drivers, sin cambios en el enrutamiento de audio. La captura tiene latencia cero respecto a la reproducción y no añade artefactos audibles.
Las herramientas de la competencia suelen enrutar el audio a través de dispositivos virtuales como VB-CABLE, que exigen instalar drivers (a menudo con permisos de administrador y un reinicio) y pueden entrar en conflicto con el audio en modo exclusivo, los drivers ASIO o los sistemas antitrampas. VoxisLive evita por completo esa clase de problemas.
Paso 2 — Detección de voz en el dispositivo
La app ejecuta detección de actividad de voz (VAD) en el dispositivo para separar la voz del silencio, el ruido de fondo y la música — localmente, en tu CPU, sin viajes de ida y vuelta por la red. Solo los segmentos identificados como voz humana pasan a traducción, lo que reduce la latencia y protege tu saldo de minutos. El VAD también sigue la propia salida hablada de VoxisLive para que nunca vuelva a traducir su propia voz.
Paso 3 — Traducción simultánea en una sola pasada
Los segmentos de voz van a un modelo multimodal en tiempo real que resuelve el reconocimiento, la traducción y la síntesis de voz en una sola pasada de baja latencia, condensando en una las tres llamadas de red secuenciales de un pipeline tradicional (voz a texto → traducción → texto a voz). Como un intérprete humano en cabina, empieza a traducir mientras el orador todavía está hablando.
Paso 4 — Reproducción hablada con atenuación
La voz traducida se reproduce por tu dispositivo de salida mientras ocurren dos cosas en paralelo: la atenuación psicoacústica baja el audio original mientras habla la traducción (igual que en la interpretación simultánea profesional), y la sincronización de latencia mantiene cada traducción alineada con su segmento de voz para que las sesiones largas nunca se desincronicen.
