O que é um app de tradução de fala para fala?

Um app de tradução de fala para fala ouve áudio falado em um idioma e produz áudio falado em outro. Em vez de mostrar um texto para você ler, ele fala a tradução em voz alta em uma voz natural.

Como a tradução falada difere das legendas?

As legendas dão um texto para você ler enquanto também assiste à tela, dividindo sua atenção. A tradução falada entrega o significado direto aos seus ouvidos, então seus olhos permanecem no vídeo, no jogo ou em quem fala.

Quantos idiomas ele consegue falar?

79 idiomas de destino. Você escolhe o idioma no app e a tradução é falada de volta nesse idioma.

Tradução de fala para fala no Windows — Ouça, não leia

Q: O VoxisLive traduz enquanto a pessoa fala?

Sim. Ele usa um modelo de intérprete simultâneo nativo que começa a traduzir enquanto a pessoa ainda está falando, ficando alguns segundos atrás em vez de esperar frases completas.

O que é a tradução de fala para fala?

A tradução de fala para fala — às vezes chamada de tradução falada ou S2ST — pega o áudio em um idioma e devolve o áudio em outro. A entrada é uma voz; a saída também é uma voz. Essa é a diferença crucial em relação à tradução que a maioria das pessoas conhece, em que você digita um texto e lê o resultado, ou um vídeo mostra uma linha de legenda para você acompanhar.

Um pipeline completo de S2ST faz três coisas: reconhece as palavras faladas, traduz o significado delas e sintetiza uma nova voz que as diz em voz alta. O VoxisLive executa essa cadeia continuamente, então o resultado chega aos seus ouvidos alguns segundos depois de quem fala — próximo o bastante para acompanhar uma conversa, uma palestra ou uma cena conforme ela acontece. Seus olhos permanecem no jogo, nos slides ou na pessoa falando.

Por que ouvir é melhor do que ler

As legendas funcionam, mas custam algo: puxar seu olhar para a parte de baixo da tela, decifrar o texto, voltar — várias vezes por minuto. Em uma cena rápida você perde a imagem; em um jogo você perde o momento; em uma reunião você para de observar quem fala. Ler é uma segunda tarefa sobreposta ao ato de assistir.

A tradução falada elimina essa tarefa. O idioma que você entende simplesmente chega pelos seus alto-falantes enquanto tudo o que você vê permanece à sua frente — a mesma razão pela qual eventos ao vivo usam intérpretes falando em um fone de ouvido em vez de rolar uma transcrição em uma parede. As legendas continuam existindo se você quiser: exporte uma transcrição em TXT, SRT ou VTT após qualquer sessão. Elas são um registro, não a coisa da qual você depende no momento.

Um intérprete simultâneo nativo

O VoxisLive captura o áudio do sistema com o process-loopback WASAPI do Windows — sem cabo virtual, sem driver adicional, sem bot na sua chamada — e exclui a própria saída para nunca traduzir a voz que acabou de produzir.

A fala capturada vai para um modelo de intérprete simultâneo nativo: em vez de esperar uma frase terminar, ele começa a traduzir enquanto a pessoa ainda está falando e fica alguns segundos atrás — exatamente como um intérprete humano trabalha em uma cabine de conferência. Esse atraso curto e constante é o que faz a saída parecer ao vivo em vez de parar e recomeçar.

Dois modos

No modo Vídeo / Jogo, a tradução é unidirecional: a outra voz chega no seu idioma e o áudio original é reduzido para que a tradução falada fique claramente por cima. No modo Reunião, ela é bidirecional: a outra parte é traduzida para o seu idioma, e a sua própria fala é traduzida para o idioma dela e enviada a um microfone virtual — sem nenhum bot na lista de participantes.

O VoxisLive funciona no Windows 10 e 11 e fala 79 idiomas de destino. Baixe na Microsoft Store, ou use a versão gratuita de código aberto do GitHub com a sua própria chave.

Ouça a tradução. Não a leia.

O que é a tradução de fala para fala?

Por que ouvir é melhor do que ler

Um intérprete simultâneo nativo

Dois modos

Perguntas frequentes

Ouça qualquer idioma, em tempo real.