FUNCIONES

Todo lo que hace VoxisLive, en detalle.

VoxisLive es una app de Windows que convierte cualquier audio del sistema en una voz natural en tu idioma, unos dos segundos por detrás del orador. Aquí tienes explicada cada función principal.

Captura del audio del sistema sin drivers

VoxisLive lee la mezcla de audio de tu Windows directamente mediante process-loopback WASAPI, la misma API de sesión de audio de Windows de bajo nivel que usan los grabadores de pantalla para capturar lo que está sonando. No hay VB-CABLE, ni dispositivo de sonido virtual, ni nada que enrutar. Instala la app y escucha lo que tú escuchas, de inmediato, en Windows 10 y 11.

La captura también excluye la propia salida de VoxisLive, así que la app nunca traduce su propia voz, ni siquiera en una conversación bidireccional.

79 idiomas, intercambiables a mitad de sesión

Elige qué escuchas y qué hablas entre 79 idiomas, e intercambia el par en un clic sin detener la sesión. La detección automática del idioma de origen se encarga del audio multilingüe.

Modo de reunión bidireccional

El modo de reunión ejecuta dos sesiones en vivo a la vez: la otra parte se traduce a tu idioma por tus altavoces, y tu propia voz se traduce al suyo y se inyecta a través de un micrófono virtual. Funciona junto a Teams, Zoom, Meet, Webex y Discord, y ningún bot aparece jamás en la lista de participantes.

El modo de reunión de VoxisLive traduciendo en ambos sentidos con el tema claro

Un intérprete simultáneo nativo, no un pipeline

La voz va a un modelo multimodal en tiempo real que reconoce, traduce y vuelve a pronunciar en una sola pasada de baja latencia, igual que trabaja un intérprete humano en cabina. Empieza a traducir mientras el orador todavía está hablando y se mantiene aproximadamente dos segundos por detrás; los intérpretes simultáneos profesionales suelen trabajar de dos a cuatro segundos por detrás.

Atenuación psicoacústica

Mientras habla la voz traducida, el audio original baja automáticamente — igual que en la interpretación simultánea profesional — y se restaura cuando termina la frase. Siempre sabes quién está hablando.

Transcripción bilingüe en vivo y exportación

Cada sesión genera una transcripción a dos columnas con búsqueda: la frase original y tu idioma, lado a lado. Expórtala como TXT, SRT o VTT cuando termine la sesión.

Subtítulos en pantalla, si los quieres

Una superposición de subtítulos opcional, siempre visible, flota sobre cualquier app o juego con un subtítulo de dos niveles: la frase de origen y la tuya. La voz hablada es el producto; los subtítulos están ahí cuando necesitas un registro.

VoxisLive traduciendo un video con una transcripción bilingüe en vivo

Privado por diseño

VoxisLive nunca se une a tu llamada como participante y no es un bot de navegador. La detección de actividad de voz en el dispositivo significa que el silencio y el audio que no es voz nunca salen de tu equipo; solo los segmentos de voz detectados van al modelo de traducción, y no se conserva ningún audio tras la sesión. La versión BYOK de código abierto envía el audio directamente a Google con tu propia clave: los servidores de VoxisLive nunca intervienen.

Núcleo abierto

El motor de escritorio es de código abierto en GitHub. Ejecútalo gratis con tu propia clave de API de Gemini, audita el pipeline de audio completo, o instala la app gestionada desde la Microsoft Store con minutos prepagados y cero configuración.

FAQ

Preguntas frecuentes

01¿VoxisLive necesita un cable de audio virtual?

No. VoxisLive usa process-loopback WASAPI sin drivers, integrado en Windows 10 y 11: no hay VB-CABLE, driver de audio virtual ni utilidad de enrutamiento que instalar, y tu configuración de audio queda intacta.

02¿La traducción es hablada o son subtítulos?

Es hablada. VoxisLive ofrece traducción de voz a voz en tiempo real con una voz natural. También hay disponibles una transcripción bilingüe en vivo y una superposición de subtítulos opcional en pantalla, exportables como TXT, SRT o VTT.

03¿Cuánto va por detrás del orador la traducción?

Unos dos segundos, según la longitud de la frase y la latencia de red. El modelo empieza a traducir mientras el orador todavía está hablando, en lugar de esperar a que termine la frase.

04¿Con qué apps funciona?

Cualquier cosa que reproduzca audio en Windows: navegadores, reproductores de escritorio, juegos y apps de videollamadas como Teams, Zoom, Meet, Webex o Discord. La captura ocurre en la capa de audio del sistema operativo, así que la app de origen es irrelevante.

Pruébalo gratis · 10 minutos por nuestra cuenta

Escucha todos los idiomas, en tiempo real.

Funciona en Windows 10 y 11: sin drivers, sin rituales de configuración y sin bots en tu llamada.

Consíguelo en Microsoft Store Código abierto en GitHub