Schritt 1 — Audioerfassung, ganz ohne Treiber
VoxisLive nutzt WASAPI-Loopback — dieselbe systemnahe Windows Audio Session API, mit der Bildschirmrekorder „das, was gerade läuft“ aufzeichnen. Das ist native Windows-Funktionalität: keine virtuellen Audiokabel, keine Treiberinstallation, keine Änderungen am Audio-Routing. Die Erfassung erfolgt latenzfrei relativ zur Wiedergabe und erzeugt keine hörbaren Artefakte.
Konkurrenzprodukte leiten Audio üblicherweise über virtuelle Geräte wie VB-CABLE, die Treiberinstallationen erfordern (oft Administratorrechte und einen Neustart) und mit Exklusivmodus-Audio, ASIO-Treibern oder Anti-Cheat-Systemen kollidieren können. VoxisLive umgeht diese Problemklasse vollständig.
Schritt 2 — Spracherkennung auf dem Gerät
Die App führt eine Sprachaktivitätserkennung (VAD) direkt auf dem Gerät aus, um Sprache von Stille, Hintergrundgeräuschen und Musik zu trennen — lokal, auf Ihrer CPU, ohne Netzwerk-Roundtrip. Nur Segmente, die als menschliche Sprache erkannt werden, gelangen in die Übersetzung; das senkt die Latenz und schont Ihr Minutenguthaben. Die VAD verfolgt außerdem die eigene Sprachausgabe von VoxisLive, damit die App nie ihre eigene Stimme erneut übersetzt.
Schritt 3 — Simultanübersetzung in einem Durchgang
Sprachsegmente gehen an ein multimodales Echtzeitmodell, das Erkennung, Übersetzung und Sprachsynthese in einem einzigen Durchgang mit niedriger Latenz erledigt — und damit die drei sequenziellen Netzwerkaufrufe einer klassischen Pipeline (Sprache-zu-Text → Übersetzung → Text-zu-Sprache) zu einem zusammenfasst. Wie ein menschlicher Dolmetscher in der Kabine beginnt es zu übersetzen, während der Sprecher noch spricht.
Schritt 4 — Gesprochene Wiedergabe mit Ducking
Die übersetzte Stimme wird über Ihr Ausgabegerät wiedergegeben, während zwei Dinge parallel geschehen: Psychoakustisches Ducking senkt das Originalaudio ab, solange die Übersetzung spricht (analog zum professionellen Simultandolmetschen), und die Latenzsynchronisierung hält jede Übersetzung an ihrem Sprachsegment ausgerichtet, damit auch lange Sitzungen nie auseinanderlaufen.
