Como o VoxisLive Funciona — Tradução de Voz em Tempo Real no Windows

O VoxisLive é um aplicativo para Windows que captura o áudio do sistema diretamente — sem cabo virtual, sem instalação de driver — detecta a fala no dispositivo, envia para o Gemini Live para tradução de fala para fala em tempo real e reproduz o resultado pelos seus alto-falantes em uma voz natural, enquanto o áudio original é automaticamente reduzido. Veja como funciona:

Como o VoxisLive captura áudio sem um cabo de áudio virtual?

O VoxisLive lê o áudio do seu sistema usando o WASAPI loopback — a mesma API de baixo nível do Windows Audio Session que os gravadores de tela usam para capturar "o que está tocando". Isso significa que não há cabo de áudio virtual para instalar, nenhum driver VB-CABLE e nenhuma alteração no roteamento de áudio. O que quer que esteja sendo reproduzido no Windows — um vídeo do YouTube, um jogo, uma chamada no Zoom, uma transmissão ao vivo na Twitch — o Voxis intercepta esse áudio no nível do sistema operacional, antes mesmo de sair do seu computador. A captura tem latência zero em relação à reprodução e não adiciona artefatos audíveis ao que outros aplicativos ouvem.

O WASAPI loopback é uma funcionalidade nativa do Windows que existe desde o Vista. Como o VoxisLive o acessa por meio da API padrão do Windows, ele funciona em todas as configurações modernas do Windows 10 e 11 sem shims de compatibilidade ou drivers de terceiros. Não há nada para desinstalar quando você terminar, e a configuração do seu dispositivo de áudio permanece exatamente como estava.

Por que isso importa para você: Abordagens concorrentes geralmente exigem o roteamento de áudio por um dispositivo de áudio virtual (VB-CABLE, Virtual Audio Cable, JACK para Windows). Eles introduzem um salto de áudio extra, exigem instalação de driver (que requer direitos de administrador e às vezes uma reinicialização) e podem causar conflitos com outros softwares. O VoxisLive elimina tudo isso.

Leia mais sobre como o Voxis pode traduzir o áudio do sistema no Windows e o detalhe técnico por trás da tradução via WASAPI loopback. Veja VoxisLive para Windows — Baixar para começar.

Como o VoxisLive detecta a fala?

Antes que qualquer áudio saia do seu dispositivo, o VoxisLive executa a detecção de atividade de voz (VAD) no dispositivo para separar segmentos de fala de silêncio, ruído de fundo e música. Essa detecção é executada localmente — na sua CPU — sem nenhuma comunicação de rede. Somente os segmentos identificados como contendo fala humana são encaminhados para o mecanismo de tradução.

A VAD no dispositivo tem dois propósitos. Primeiro, ela reduz a latência: a solicitação de tradução é disparada no momento em que a fala é detectada com confiança, não após expirar um temporizador fixo. Segundo, ela reduz custos: silêncio, música de espera e som ambiente nunca consomem capacidade de tradução, o que mantém o uso de minutos do plano gerenciado dentro do esperado. Se você estiver assistindo a um filme e alguém disser uma frase de dez segundos, o Voxis armazena esse segmento e o despacha como uma enunciação coerente — ele não corta a fala no meio de uma palavra.

O estágio VAD também lida com o problema de autoexclusão. O VoxisLive rastreia sua própria saída de áudio e suprime esses quadros para que o loop de tradução nunca ouça sua própria voz e a re-traduza. Isso é um pré-requisito para o uso bidirecional confiável, e é tratado inteiramente de forma local.

Como o VoxisLive traduz em tempo real?

Após a detecção de fala, o segmento de áudio é passado para o Gemini Live — o modelo multimodal em tempo real do Google — para tradução de fala para fala. O Gemini Live aceita entrada de áudio diretamente e retorna a saída de áudio traduzida, o que significa que ele lida com a transcrição e a tradução em uma única passagem de baixa latência, em vez de encadear um serviço separado de fala para texto com um serviço de tradução com um serviço de texto para fala.

Essa arquitetura é o que torna possível a tradução em estilo simultâneo. Os pipelines de tradução tradicionais têm três chamadas de rede sequenciais (ASR → MT → TTS), cada uma adicionando centenas de milissegundos de latência. O Gemini Live colapsa todos eles em uma única chamada de streaming. O VoxisLive gerencia o ciclo de vida da sessão, transmitindo o áudio de entrada e enfileirando o áudio traduzido de saída. Saiba mais sobre tradução de fala para fala e por que ela supera os pipelines baseados em texto.

O VoxisLive é open-core: você pode trazer sua própria chave da API Gemini (BYOK) sem nenhum custo de assinatura — a tradução funciona com sua própria cota do Google AI. Se você preferir não gerenciar chaves de API, os planos Creator ($19/mês) e Pro ($39/mês) incluem minutos gerenciados na nuvem sem necessidade de configuração. Compare os planos na página de preços.

Como o VoxisLive reproduz a tradução?

O áudio traduzido do Gemini Live é reproduzido pelo seu dispositivo de saída padrão em uma voz sintetizada natural. Duas etapas de processamento de sinal acontecem simultaneamente:

Redução psicoacústica. No momento em que a reprodução do áudio de tradução começa, o áudio de origem é brevemente reduzido no volume (ducked). Isso espelha como os intérpretes simultâneos profissionais trabalham — a voz do intérprete passa por cima do original em vez de competir com ele em igual nível. O resultado é que você ouve a tradução com clareza sem perder o contexto acústico do original (tom, emoção, identidade do locutor).

Sincronização de latência. O Voxis alinha a reprodução da tradução com o segmento de fala ao qual ela corresponde, compensando o tempo de processamento variável da chamada do Gemini Live. Isso evita que a voz traduzida fique fora de sincronia com a ação na tela ao longo de sessões longas.

A qualidade da voz de saída é governada pela síntese do Gemini Live, que produz prosódia semelhante à humana. O Voxis não aplica compressão ou equalização adicional que prejudicaria a clareza da voz.

O VoxisLive é interpretação simultânea — é realmente em tempo real?

O VoxisLive é quase simultâneo, não sem atraso. Há uma latência mínima inerente entre um locutor terminar uma frase e o Voxis falar a tradução — este é o tempo necessário para a VAD confirmar que a enunciação terminou, mais a viagem de ida e volta do Gemini Live. Na prática, em condições normais de rede, isso fica cerca de um a dois segundos atrás do discurso original.

Para comparação, intérpretes simultâneos humanos profissionais em uma cabine da ONU normalmente trabalham dois a quatro segundos atrás do locutor. O VoxisLive opera nessa mesma faixa ou mais rápido, dependendo do comprimento da enunciação e da latência da rede. Não é adequado para aplicações que exigem latência zero (SLAs de legendagem em tempo real, por exemplo), mas está bem dentro do limite que torna mídia, reuniões e jogos confortáveis.

A qualidade da tradução escala com o comprimento da enunciação. O Voxis coleta uma enunciação completa antes de traduzir, o que dá ao Gemini Live contexto suficiente para uma saída precisa. Fragmentos muito curtos ("Yeah", "Okay", "Thanks") são agrupados ou diferidos para evitar traduções de uma única palavra de baixa qualidade.

Explore como o Voxis lida com reuniões ao vivo e tradução de áudio de jogos.

E as reuniões — o VoxisLive usa um bot para entrar nas chamadas?

Não. O VoxisLive nunca entra em uma chamada como participante bot, solicita permissões de anfitrião de reunião ou interage com o aplicativo de reunião de nenhuma forma. Ele lê o áudio que o aplicativo de reunião (Zoom, Teams, Google Meet, Discord) já está reproduzindo nos seus alto-falantes via WASAPI loopback, exatamente como qualquer software de gravação faria. Do ponto de vista da plataforma de reunião, o VoxisLive não existe.

Isso tem três consequências práticas. Primeiro, outros participantes nunca veem uma entrada de bot na lista de participantes. Segundo, o VoxisLive funciona com todas as plataformas de reunião sem precisar de uma integração específica da plataforma — se reproduz áudio no Windows, o Voxis pode traduzir. Terceiro, não há dependência de APIs de plataforma que podem ser revogadas ou ter limites de taxa.

O modo de reunião bidirecional funciona da mesma forma: o Voxis captura ambas as direções do mix de áudio do sistema. Ele distingue seus próprios quadros de saída (usando o mecanismo de autoexclusão descrito acima) para que o locutor B não ouça uma dupla-tradução da resposta que o Voxis acabou de sintetizar para o locutor A.

Veja a página de caso de uso de reuniões do VoxisLive para um passo a passo detalhado.

Privacidade e BYOK — para onde vai meu áudio?

Com BYOK (sua chave da API Gemini): O áudio vai do seu dispositivo diretamente para o endpoint da API do Google AI associado à sua própria conta do Google. Os servidores do VoxisLive não estão no caminho. O tratamento de dados do Google para a API Gemini é regido pelos próprios termos e princípios de IA do Google. O VoxisLive nunca armazena, registra ou processa esse áudio.

Com planos gerenciados (Creator / Pro): Os segmentos de áudio viajam para a infraestrutura de nuvem do VoxisLive, que faz proxy da chamada para o Gemini Live. O VoxisLive processa o áudio em trânsito e não retém o conteúdo de áudio após o término da sessão de tradução. Consulte a Política de Privacidade para o cronograma completo de retenção de dados.

Em ambos os modos, o estágio VAD no dispositivo significa que silêncio e áudio sem fala nunca saem do seu computador. Apenas segmentos de fala confirmados são transmitidos.

O VoxisLive é um aplicativo local de usuário único. Ele não grava áudio ambiente em segundo plano, não é executado como um serviço do sistema a menos que você o configure assim, e não tem acesso ao microfone (ele captura o áudio de saída do sistema, não a entrada do microfone).

Perguntas comuns

O VoxisLive funciona com fones de ouvido e áudio Bluetooth?

Sim. O WASAPI loopback captura o mix de áudio no nível do mixer do Windows, antes de ser enviado para qualquer dispositivo de saída específico. A troca entre fones de ouvido, alto-falantes ou Bluetooth não afeta a captura. A saída da tradução segue seu dispositivo de reprodução padrão.

Vai funcionar se o áudio original não estiver em inglês?

O VoxisLive suporta áudio de origem em múltiplos idiomas. O Gemini Live lida com a detecção do idioma de origem internamente. Você configura seu idioma de destino (saída) e o Voxis cuida do resto, independentemente do idioma do áudio de origem.

Preciso deixar um terminal ou prompt de comando aberto?

Não. O VoxisLive é executado como um aplicativo padrão do Windows com uma interface gráfica. Nenhuma linha de comando é necessária para uso normal.

Existe uma versão gratuita?

Sim. O nível Developer é gratuito e usa sua própria chave da API Gemini (BYOK). O Google fornece cota de API gratuita para o Gemini, então a tradução pode ser genuinamente sem custo dependendo do seu uso. Baixar o VoxisLive ou ver todos os planos.

Pronto para experimentar? Baixar o VoxisLive para Windows — gratuito para começar, sem cabo virtual necessário.

Ouça todos os idiomas, em tempo real.

Baixar

Perguntas frequentes

O VoxisLive precisa de um cabo de áudio virtual ou instalação de driver?

Não. O VoxisLive captura o áudio do sistema por meio do WASAPI loopback nativo do Windows — a mesma API que os gravadores de tela usam. Não há VB-CABLE, nenhum driver para instalar e nenhuma alteração no roteamento de áudio, portanto não há nada para desinstalar quando você terminar.

Quão em tempo real é a tradução?

O VoxisLive é quase simultâneo, não sem atraso. Em condições normais de rede, ele fala a tradução cerca de um a dois segundos atrás do original — a mesma faixa em que os intérpretes humanos profissionais trabalham — após a detecção de fala no dispositivo confirmar a enunciação e o Gemini Live retornar o áudio traduzido.

O VoxisLive entra nas minhas reuniões como um bot?

Não. O VoxisLive nunca entra em uma chamada como participante ou solicita permissões de anfitrião. Ele lê o áudio que o aplicativo de reunião já reproduz nos seus alto-falantes, então outros participantes nunca veem um bot na lista e funciona com Zoom, Teams, Google Meet e Discord sem nenhuma integração específica da plataforma.