FUNCIONALIDADES

Tudo o que o VoxisLive faz, em detalhe.

O VoxisLive é um app para Windows que transforma qualquer áudio do sistema em uma voz natural no seu idioma, cerca de dois segundos atrás de quem fala. Aqui está cada recurso principal, explicado.

Captura de áudio do sistema sem drivers

O VoxisLive lê o mix de áudio do seu Windows diretamente por meio do process-loopback WASAPI — a mesma API de baixo nível do Windows Audio Session que os gravadores de tela usam para capturar o que está tocando. Não há VB-CABLE, nenhum dispositivo de som virtual e nada para rotear. Instale o app e ele ouve o que você ouve, imediatamente, no Windows 10 e 11.

A captura também exclui a própria saída do VoxisLive, então o app nunca traduz a própria voz — mesmo em uma conversa bidirecional.

79 idiomas, trocáveis no meio da sessão

Escolha o que você ouve e o que você fala entre 79 idiomas, e troque o par com um clique sem interromper a sessão. A detecção automática do idioma de origem lida com áudio em vários idiomas.

Modo de reunião bidirecional

O modo de reunião executa duas sessões ao vivo ao mesmo tempo: a outra parte é traduzida para o seu idioma pelos seus alto-falantes, e a sua própria fala é traduzida para o idioma dela e injetada por um microfone virtual. Funciona junto com Teams, Zoom, Meet, Webex e Discord — e nenhum bot aparece na lista de participantes.

VoxisLive no modo de reunião traduzindo nas duas direções no tema claro

Um intérprete simultâneo nativo, não um pipeline

A fala vai para um modelo multimodal em tempo real que reconhece, traduz e fala novamente em uma única passagem de baixa latência — do jeito que um intérprete humano trabalha em uma cabine. Ele começa a traduzir enquanto a pessoa ainda está falando e fica cerca de dois segundos atrás; intérpretes simultâneos profissionais normalmente trabalham de dois a quatro segundos atrás.

Ducking psicoacústico

Enquanto a voz traduzida fala, o áudio original é automaticamente reduzido — espelhando a interpretação simultânea profissional — e depois restaurado quando a fala termina. Você sempre sabe quem está falando.

Transcrição bilíngue ao vivo & exportação

Toda sessão produz uma transcrição em duas colunas, pesquisável — a linha original e o seu idioma, lado a lado. Exporte como TXT, SRT ou VTT quando a sessão terminar.

Legendas na tela, se você quiser

Uma sobreposição opcional de legendas sempre no topo flutua sobre qualquer app ou jogo, com uma legenda em dois níveis: a linha de origem e a sua. A voz falada é o produto; as legendas estão lá para quando você precisa de um registro.

VoxisLive traduzindo um vídeo com uma transcrição bilíngue ao vivo

Privado por design

O VoxisLive nunca entra na sua chamada como participante e não é um bot de navegador. A detecção de atividade de voz no dispositivo significa que o silêncio e o áudio que não é fala nunca saem da sua máquina; apenas os trechos de fala detectados vão para o modelo de tradução, e nenhum áudio é retido após a sessão. A versão de código aberto BYOK envia o áudio diretamente ao Google sob a sua própria chave — os servidores do VoxisLive nunca entram no caminho.

Open-core

O mecanismo de desktop é de código aberto no GitHub. Execute-o com a sua própria chave de API do Gemini de graça, audite todo o pipeline de áudio ou instale o app gerenciado da Microsoft Store com minutos pré-pagos e zero configuração.

FAQ

Perguntas frequentes

01O VoxisLive precisa de um cabo de áudio virtual?

Não. O VoxisLive usa process-loopback WASAPI sem drivers, embutido no Windows 10 e 11 — não há VB-CABLE, driver de áudio virtual nem utilitário de roteamento para instalar, e a sua configuração de áudio permanece inalterada.

02A tradução é falada ou em legendas?

É falada. O VoxisLive entrega tradução de fala para fala em tempo real em uma voz natural. Uma transcrição bilíngue ao vivo e uma sobreposição opcional de legendas na tela também estão disponíveis, exportáveis como TXT, SRT ou VTT.

03Quanto a tradução fica atrás de quem fala?

Cerca de dois segundos, dependendo do tamanho do enunciado e da latência da rede. O modelo começa a traduzir enquanto a pessoa ainda está falando, em vez de esperar o fim da frase.

04Com quais apps ele funciona?

Com qualquer coisa que reproduza áudio no Windows: navegadores, players de desktop, jogos e apps de conferência como Teams, Zoom, Meet, Webex ou Discord. A captura acontece na camada de áudio do sistema operacional, então o app de origem é irrelevante.

Grátis para testar · 10 minutos por nossa conta

Ouça qualquer idioma, em tempo real.

Funciona no Windows 10 e 11 — sem drivers, sem ritual de configuração, sem bot na sua chamada.

Baixe na Microsoft Store Código aberto no GitHub