Was ist eine Sprache-zu-Sprache-Übersetzungs-App?

Eine Sprache-zu-Sprache-Übersetzungs-App hört gesprochenes Audio in einer Sprache und erzeugt gesprochenes Audio in einer anderen. Statt Ihnen Text zum Lesen zu zeigen, spricht sie die Übersetzung mit natürlicher Stimme laut aus.

Wie unterscheidet sich gesprochene Übersetzung von Untertiteln?

Untertitel geben Ihnen Text zum Lesen, während Sie zugleich auf den Bildschirm schauen, und teilen so Ihre Aufmerksamkeit. Gesprochene Übersetzung liefert die Bedeutung direkt an Ihre Ohren, sodass Ihre Augen beim Video, Spiel oder Sprecher bleiben.

Übersetzt VoxisLive, während der Sprecher spricht?

Ja. Es nutzt ein natives Simultandolmetscher-Modell, das zu übersetzen beginnt, während der Sprecher noch spricht, und wenige Sekunden dahinterbleibt, statt auf vollständige Sätze zu warten.

Wie viele Sprachen kann es sprechen?

79 Zielsprachen. Sie wählen die Sprache in der App, und die Übersetzung wird in dieser Sprache gesprochen zurückgegeben.

Sprache-zu-Sprache-Übersetzung unter Windows — Hören statt Lesen

Was ist Sprache-zu-Sprache-Übersetzung?

Sprache-zu-Sprache-Übersetzung — manchmal gesprochene Übersetzung oder S2ST genannt — nimmt Audio in einer Sprache und gibt Audio in einer anderen zurück. Die Eingabe ist eine Stimme; die Ausgabe ist ebenfalls eine Stimme. Das ist der entscheidende Unterschied zu der Übersetzung, die die meisten kennen, bei der Sie Text eintippen und das Ergebnis lesen, oder ein Video eine Zeile Untertitel zum Überfliegen zeigt.

Eine vollständige S2ST-Pipeline erledigt drei Dinge: Sie erkennt die gesprochenen Wörter, übersetzt ihre Bedeutung und synthetisiert eine neue Stimme, die sie laut ausspricht. VoxisLive lässt diese Kette kontinuierlich laufen, sodass das Ergebnis wenige Sekunden nach dem Originalsprecher in Ihren Ohren ankommt — nah genug, um einem Gespräch, einem Vortrag oder einer Szene zu folgen, während sie geschieht. Ihre Augen bleiben beim Gameplay, den Folien oder der sprechenden Person.

Warum Hören besser ist als Lesen

Untertitel funktionieren, aber sie kosten Sie etwas: Ihren Blick an den unteren Bildschirmrand zu ziehen, Text zu erfassen, zurückzuspringen — viele Male pro Minute. In einer schnellen Szene verpassen Sie das Bild; in einem Spiel verpassen Sie den Moment; in einem Meeting hören Sie auf, den Sprecher zu beobachten. Lesen ist eine zweite Aufgabe, die sich über das Zuschauen legt.

Gesprochene Übersetzung nimmt Ihnen diese Aufgabe ab. Die Sprache, die Sie verstehen, kommt einfach über Ihre Lautsprecher, während alles, was Sie sehen, vor Ihnen bleibt — aus demselben Grund setzen Live-Veranstaltungen auf Dolmetscher, die in einen Ohrhörer sprechen, statt ein Transkript an eine Wand zu projizieren. Untertitel gibt es weiterhin, wenn Sie sie möchten: Exportieren Sie nach jeder Sitzung ein TXT-, SRT- oder VTT-Transkript. Sie sind eine Aufzeichnung, nicht das, worauf Sie sich im Moment verlassen.

Ein nativer Simultandolmetscher

VoxisLive erfasst Systemaudio mit dem Windows-WASAPI-Process-Loopback — kein virtuelles Kabel, kein zusätzlicher Treiber, kein Bot in Ihrem Anruf — und schließt die eigene Ausgabe aus, sodass es nie die Stimme übersetzt, die es gerade erzeugt hat.

Die erfasste Sprache geht an ein natives Simultandolmetscher-Modell: Statt auf das Ende eines Satzes zu warten, beginnt es zu übersetzen, während der Sprecher noch spricht, und bleibt wenige Sekunden dahinter — genau so, wie ein menschlicher Dolmetscher in der Konferenzkabine arbeitet. Diese kurze, gleichmäßige Verzögerung lässt die Ausgabe live wirken statt stockend.

Zwei Modi

Im Video-/Spiel-Modus ist die Übersetzung einseitig: Die andere Stimme kommt in Ihre Sprache, und das Originalaudio wird abgesenkt, sodass die gesprochene Übersetzung klar obenauf sitzt. Im Meeting-Modus ist sie zweiseitig: Die Gegenseite wird in Ihre Sprache übersetzt, und Ihre eigene Sprache wird in deren Sprache übersetzt und in ein virtuelles Mikrofon eingespeist — ohne Bot in der Teilnehmerliste.

VoxisLive läuft unter Windows 10 und 11 und spricht 79 Zielsprachen. Holen Sie es sich im Microsoft Store, oder nutzen Sie den kostenlosen quelloffenen Build von GitHub mit Ihrem eigenen Schlüssel.

Hören Sie die Übersetzung. Lesen Sie sie nicht.

Was ist Sprache-zu-Sprache-Übersetzung?

Warum Hören besser ist als Lesen

Ein nativer Simultandolmetscher

Zwei Modi

Häufige Fragen

Hören Sie jede Sprache, in Echtzeit.