So funktioniert VoxisLive — Treiberlose Echtzeit-Sprachübersetzung unter Windows

Schritt 1 — Audioerfassung, ganz ohne Treiber

VoxisLive nutzt WASAPI-Loopback — dieselbe systemnahe Windows Audio Session API, mit der Bildschirmrekorder „das, was gerade läuft“ aufzeichnen. Das ist native Windows-Funktionalität: keine virtuellen Audiokabel, keine Treiberinstallation, keine Änderungen am Audio-Routing. Die Erfassung erfolgt latenzfrei relativ zur Wiedergabe und erzeugt keine hörbaren Artefakte.

Konkurrenzprodukte leiten Audio üblicherweise über virtuelle Geräte wie VB-CABLE, die Treiberinstallationen erfordern (oft Administratorrechte und einen Neustart) und mit Exklusivmodus-Audio, ASIO-Treibern oder Anti-Cheat-Systemen kollidieren können. VoxisLive umgeht diese Problemklasse vollständig.

Schritt 2 — Spracherkennung auf dem Gerät

Die App führt eine Sprachaktivitätserkennung (VAD) direkt auf dem Gerät aus, um Sprache von Stille, Hintergrundgeräuschen und Musik zu trennen — lokal, auf Ihrer CPU, ohne Netzwerk-Roundtrip. Nur Segmente, die als menschliche Sprache erkannt werden, gelangen in die Übersetzung; das senkt die Latenz und schont Ihr Minutenguthaben. Die VAD verfolgt außerdem die eigene Sprachausgabe von VoxisLive, damit die App nie ihre eigene Stimme erneut übersetzt.

Schritt 3 — Simultanübersetzung in einem Durchgang

Sprachsegmente gehen an ein multimodales Echtzeitmodell, das Erkennung, Übersetzung und Sprachsynthese in einem einzigen Durchgang mit niedriger Latenz erledigt — und damit die drei sequenziellen Netzwerkaufrufe einer klassischen Pipeline (Sprache-zu-Text → Übersetzung → Text-zu-Sprache) zu einem zusammenfasst. Wie ein menschlicher Dolmetscher in der Kabine beginnt es zu übersetzen, während der Sprecher noch spricht.

Schritt 4 — Gesprochene Wiedergabe mit Ducking

Die übersetzte Stimme wird über Ihr Ausgabegerät wiedergegeben, während zwei Dinge parallel geschehen: Psychoakustisches Ducking senkt das Originalaudio ab, solange die Übersetzung spricht (analog zum professionellen Simultandolmetschen), und die Latenzsynchronisierung hält jede Übersetzung an ihrem Sprachsegment ausgerichtet, damit auch lange Sitzungen nie auseinanderlaufen.

Wie schnell ist es wirklich?

VoxisLive arbeitet nahezu simultan, nicht verzögerungsfrei: typischerweise ein bis zwei Sekunden hinter der Originalsprache, abhängig von Äußerungslänge und Netzwerklatenz. Zum Vergleich: Professionelle menschliche Simultandolmetscher arbeiten zwei bis vier Sekunden hinter dem Sprecher — VoxisLive bewegt sich in diesem Bereich oder ist schneller. Sehr kurze Fragmente werden gebündelt, um schlechte Einzelwortübersetzungen zu vermeiden.

Meetings ohne Bot

VoxisLive tritt einem Anruf nie als Teilnehmer bei, fordert nie Host-Berechtigungen an und greift nie in die Meeting-App ein. Es liest das Audio, das ohnehin über Ihre Lautsprecher wiedergegeben wird — dadurch ist es für andere Teilnehmer unsichtbar und verhält sich in Zoom, Teams, Google Meet, Webex und Discord identisch. Im Zwei-Wege-Modus übersetzt es zusätzlich Ihre eigene Sprache über ein virtuelles Mikrofon in die Meeting-Sprache.

Was Ihren Rechner verlässt

Mit dem quelloffenen BYOK-Build geht das Audio unter Ihrem eigenen Schlüssel direkt an die API von Google — die Server von VoxisLive sind nie beteiligt. Bei der verwalteten Store-App werden erkannte Sprachsegmente an das Modell weitergeleitet, und nach Sitzungsende wird kein Audio aufbewahrt. Stille und Nicht-Sprach-Audio verlassen Ihren Rechner dank der VAD auf dem Gerät gar nicht erst.

FAQ

Häufige Fragen

01Brauche ich VB-CABLE oder einen virtuellen Audiotreiber?

Nein. VoxisLive nutzt WASAPI-Loopback, eine native Windows-API, die unter Windows 10 und 11 verfügbar ist. Es gibt nichts zu installieren oder zu routen, und in Ihren Audioeinstellungen erscheint kein neues Gerät.

02Tritt VoxisLive meinem Meeting als Bot bei?

Niemals. Es erfasst Ihr eigenes Systemaudio lokal, sodass in Zoom, Teams oder Meet kein dritter Teilnehmer erscheint, keine Berechtigungsabfrage ausgelöst wird und keine Plattform-Integration nötig ist.

03Mit wie viel Verzögerung muss ich rechnen?

Etwa ein bis zwei Sekunden hinter der Originalsprache, nach Spracherkennung und KI-Verarbeitung — derselbe Bereich wie bei professionellen menschlichen Simultandolmetschern, oder schneller.

04Hängt die Übersetzungsqualität von der Äußerungslänge ab?

Ja — längere Äußerungen werden besser übersetzt. Sehr kurze Fragmente werden gebündelt oder zurückgestellt, um schlechte Einzelwortübersetzungen zu vermeiden.

Von Ihren Lautsprechern in Ihre Sprache — in etwa zwei Sekunden.