O que é a tradução de fala para fala?
A tradução de fala para fala — às vezes chamada de tradução falada ou S2ST — pega o áudio em um idioma e devolve o áudio em outro. A entrada é uma voz; a saída também é uma voz. Essa é a diferença crucial em relação à tradução que a maioria das pessoas conhece, em que você digita um texto e lê o resultado, ou um vídeo mostra uma linha de legenda para você acompanhar.
Um pipeline completo de S2ST faz três coisas: reconhece as palavras faladas, traduz o significado delas e sintetiza uma nova voz que as diz em voz alta. O VoxisLive executa essa cadeia continuamente, então o resultado chega aos seus ouvidos alguns segundos depois de quem fala — próximo o bastante para acompanhar uma conversa, uma palestra ou uma cena conforme ela acontece. Seus olhos permanecem no jogo, nos slides ou na pessoa falando.
Por que ouvir é melhor do que ler
As legendas funcionam, mas custam algo: puxar seu olhar para a parte de baixo da tela, decifrar o texto, voltar — várias vezes por minuto. Em uma cena rápida você perde a imagem; em um jogo você perde o momento; em uma reunião você para de observar quem fala. Ler é uma segunda tarefa sobreposta ao ato de assistir.
A tradução falada elimina essa tarefa. O idioma que você entende simplesmente chega pelos seus alto-falantes enquanto tudo o que você vê permanece à sua frente — a mesma razão pela qual eventos ao vivo usam intérpretes falando em um fone de ouvido em vez de rolar uma transcrição em uma parede. As legendas continuam existindo se você quiser: exporte uma transcrição em TXT, SRT ou VTT após qualquer sessão. Elas são um registro, não a coisa da qual você depende no momento.
Um intérprete simultâneo nativo
O VoxisLive captura o áudio do sistema com o process-loopback WASAPI do Windows — sem cabo virtual, sem driver adicional, sem bot na sua chamada — e exclui a própria saída para nunca traduzir a voz que acabou de produzir.
A fala capturada vai para um modelo de intérprete simultâneo nativo: em vez de esperar uma frase terminar, ele começa a traduzir enquanto a pessoa ainda está falando e fica alguns segundos atrás — exatamente como um intérprete humano trabalha em uma cabine de conferência. Esse atraso curto e constante é o que faz a saída parecer ao vivo em vez de parar e recomeçar.
Dois modos
No modo Vídeo / Jogo, a tradução é unidirecional: a outra voz chega no seu idioma e o áudio original é reduzido para que a tradução falada fique claramente por cima. No modo Reunião, ela é bidirecional: a outra parte é traduzida para o seu idioma, e a sua própria fala é traduzida para o idioma dela e enviada a um microfone virtual — sem nenhum bot na lista de participantes.
O VoxisLive funciona no Windows 10 e 11 e fala 79 idiomas de destino. Baixe na Microsoft Store, ou use a versão gratuita de código aberto do GitHub com a sua própria chave.