Etapa 1 — Captura de áudio, sem drivers
O VoxisLive usa loopback WASAPI — a mesma API de baixo nível do Windows Audio Session que os gravadores de tela usam para capturar “o que está tocando”. É um recurso nativo do Windows: sem cabos de áudio virtuais, sem instalação de driver, sem mudanças no roteamento de áudio. A captura tem latência zero em relação à reprodução e não adiciona artefatos audíveis.
Ferramentas concorrentes costumam rotear o áudio por dispositivos virtuais como o VB-CABLE, que exigem instalação de drivers (muitas vezes com direitos de administrador e reinicialização) e podem entrar em conflito com áudio em modo exclusivo, drivers ASIO ou sistemas anti-cheat. O VoxisLive elimina essa classe de problemas por completo.
Etapa 2 — Detecção de fala no dispositivo
O app executa detecção de atividade de voz (VAD) no dispositivo para separar a fala do silêncio, do ruído de fundo e da música — localmente, na sua CPU, sem ida e volta pela rede. Apenas os trechos identificados como fala humana seguem para a tradução, o que reduz a latência e protege seu saldo de minutos. O VAD também acompanha a própria saída falada do VoxisLive, para que ele nunca retraduza a própria voz.
Etapa 3 — Tradução simultânea em uma única passagem
Os trechos de fala vão para um modelo multimodal em tempo real que faz reconhecimento, tradução e síntese de voz em uma única passagem de baixa latência — condensando em uma só as três chamadas de rede sequenciais de um pipeline tradicional (fala para texto → tradução → texto para fala). Como um intérprete humano em uma cabine, ele começa a traduzir enquanto a pessoa ainda está falando.
Etapa 4 — Reprodução falada com ducking
A voz traduzida toca no seu dispositivo de saída enquanto duas coisas acontecem em paralelo: o ducking psicoacústico reduz o áudio original enquanto a tradução fala (espelhando a interpretação simultânea profissional), e a sincronização de latência mantém cada tradução alinhada ao seu trecho de fala, para que sessões longas nunca fiquem defasadas.
