Como o VoxisLive funciona — Tradução de voz em tempo real sem drivers no Windows

Etapa 1 — Captura de áudio, sem drivers

O VoxisLive usa loopback WASAPI — a mesma API de baixo nível do Windows Audio Session que os gravadores de tela usam para capturar “o que está tocando”. É um recurso nativo do Windows: sem cabos de áudio virtuais, sem instalação de driver, sem mudanças no roteamento de áudio. A captura tem latência zero em relação à reprodução e não adiciona artefatos audíveis.

Ferramentas concorrentes costumam rotear o áudio por dispositivos virtuais como o VB-CABLE, que exigem instalação de drivers (muitas vezes com direitos de administrador e reinicialização) e podem entrar em conflito com áudio em modo exclusivo, drivers ASIO ou sistemas anti-cheat. O VoxisLive elimina essa classe de problemas por completo.

Etapa 2 — Detecção de fala no dispositivo

O app executa detecção de atividade de voz (VAD) no dispositivo para separar a fala do silêncio, do ruído de fundo e da música — localmente, na sua CPU, sem ida e volta pela rede. Apenas os trechos identificados como fala humana seguem para a tradução, o que reduz a latência e protege seu saldo de minutos. O VAD também acompanha a própria saída falada do VoxisLive, para que ele nunca retraduza a própria voz.

Etapa 3 — Tradução simultânea em uma única passagem

Os trechos de fala vão para um modelo multimodal em tempo real que faz reconhecimento, tradução e síntese de voz em uma única passagem de baixa latência — condensando em uma só as três chamadas de rede sequenciais de um pipeline tradicional (fala para texto → tradução → texto para fala). Como um intérprete humano em uma cabine, ele começa a traduzir enquanto a pessoa ainda está falando.

Etapa 4 — Reprodução falada com ducking

A voz traduzida toca no seu dispositivo de saída enquanto duas coisas acontecem em paralelo: o ducking psicoacústico reduz o áudio original enquanto a tradução fala (espelhando a interpretação simultânea profissional), e a sincronização de latência mantém cada tradução alinhada ao seu trecho de fala, para que sessões longas nunca fiquem defasadas.

Quão rápido é, na prática?

O VoxisLive é quase simultâneo, não instantâneo: normalmente fica de um a dois segundos atrás da fala original, dependendo do tamanho do enunciado e da latência da rede. Para referência, intérpretes simultâneos humanos profissionais trabalham de dois a quatro segundos atrás do orador — o VoxisLive opera nessa faixa ou mais rápido. Fragmentos muito curtos são agrupados para evitar traduções ruins de palavras isoladas.

Reuniões sem bot

O VoxisLive nunca entra em uma chamada como participante, nunca pede permissões de anfitrião e nunca toca no aplicativo de reunião. Ele lê o áudio que já está tocando nos seus alto-falantes, o que o torna invisível para os outros participantes e idêntico no Zoom, Teams, Google Meet, Webex e Discord. No modo bidirecional, ele também traduz a sua própria fala para o idioma da reunião por meio de um microfone virtual.

O que sai da sua máquina

Com a versão de código aberto BYOK, o áudio vai diretamente para a API do Google sob a sua própria chave — os servidores do VoxisLive nunca entram no caminho. Com o app gerenciado da Store, os trechos de fala detectados passam por proxy até o modelo e nenhum áudio é retido após o fim da sessão. Silêncio e áudio que não é fala nunca saem da sua máquina, graças ao VAD no dispositivo.

FAQ

Perguntas frequentes

01Preciso de VB-CABLE ou de um driver de áudio virtual?

Não. O VoxisLive usa loopback WASAPI, uma API nativa do Windows disponível no Windows 10 e 11. Não há nada para instalar ou rotear, e nenhum dispositivo novo aparece nas suas configurações de áudio.

02O VoxisLive entra na minha reunião como bot?

Nunca. Ele captura o áudio do seu próprio sistema localmente, então nenhum terceiro participante aparece no Zoom, Teams ou Meet, nenhum aviso de permissão é disparado e nenhuma integração com a plataforma é necessária.

03Quanto atraso devo esperar?

Cerca de um a dois segundos atrás da fala original, após a detecção de fala e o processamento de IA — a mesma faixa dos intérpretes simultâneos humanos profissionais, ou mais rápido.

04A qualidade da tradução depende do tamanho do enunciado?

Sim — enunciados mais longos são traduzidos melhor. Fragmentos muito curtos são agrupados ou adiados para evitar traduções ruins de palavras isoladas.

Dos seus alto-falantes ao seu idioma em cerca de dois segundos.