Wie VoxisLive funktioniert — Echtzeit-Sprachübersetzung unter Windows
VoxisLive ist eine Windows-App, die Systemton direkt aufzeichnet – ohne virtuelles Kabel, ohne Treiberinstallation –, Sprache geräteseitig erkennt, sie zur Echtzeit-Sprache-zu-Sprache-Übersetzung an Gemini Live sendet und das Ergebnis in einer natürlichen Stimme über Ihre Lautsprecher wiedergibt, während der Originalton automatisch gedämpft wird. So funktioniert es:
Wie nimmt VoxisLive Audio ohne virtuelles Audiokabel auf?
VoxisLive liest Ihren Systemton über WASAPI-Loopback – die gleiche Windows-Audio-Session-API auf niedriger Ebene, die Bildschirmrekorder verwenden, um „das Gespielte" aufzuzeichnen. Das bedeutet: kein virtuelles Audiokabel, kein VB-CABLE-Treiber und keine Änderungen an Ihrem Audio-Routing. Was auch immer auf Windows abgespielt wird – ein YouTube-Video, ein Spiel, ein Zoom-Anruf, ein Twitch-Stream – Voxis fängt diesen Ton auf Betriebssystemebene ab, bevor er Ihr Gerät verlässt. Die Aufnahme hat keinerlei Latenz gegenüber der Wiedergabe und fügt dem, was andere Apps hören, keine hörbaren Artefakte hinzu.
WASAPI-Loopback ist eine native Windows-Funktion, die seit Vista existiert. Da VoxisLive es über die Standard-Windows-API aufruft, funktioniert es auf jeder modernen Windows-10- und Windows-11-Konfiguration ohne Kompatibilitäts-Shims oder Drittanbieter-Treiber. Nach der Nutzung gibt es nichts zu deinstallieren, und Ihre Audiokonfiguration bleibt genau wie zuvor.
Warum das für Sie wichtig ist: Konkurrierende Ansätze erfordern typischerweise die Audioweiterleitung über ein virtuelles Audiogerät (VB-CABLE, Virtual Audio Cable, JACK für Windows). Diese verursachen einen zusätzlichen Audio-Hop, benötigen Treiberinstallation (mit Administratorrechten und manchmal einem Neustart) und können Konflikte mit anderer Software verursachen. VoxisLive umgeht all das.
Lesen Sie mehr darüber, wie Voxis Systemton unter Windows übersetzen kann und die technischen Details hinter der WASAPI-Loopback-Übersetzung. Laden Sie VoxisLive für Windows herunter und legen Sie los.
Wie erkennt VoxisLive Sprache?
Bevor Audio Ihr Gerät verlässt, führt VoxisLive eine geräteseitige Stimmerkennung (VAD) durch, um Sprachsegmente von Stille, Hintergrundgeräuschen und Musik zu trennen. Diese Erkennung läuft lokal – auf Ihrer CPU – ohne Netzwerk-Roundtrip. Nur Segmente, die als menschliche Sprache identifiziert werden, werden an die Übersetzungs-Engine weitergeleitet.
Die geräteseitige VAD erfüllt zwei Zwecke. Erstens reduziert sie die Latenz: Die Übersetzungsanfrage wird in dem Moment gesendet, in dem Sprache sicher erkannt wird, nicht nach Ablauf eines festen Timers. Zweitens senkt sie die Kosten: Stille, Wartemusik und Umgebungsgeräusche verbrauchen nie Übersetzungskapazität, was die Minutennutzung bei verwalteten Plänen fair hält. Wenn Sie einen Film schauen und jemand einen zehn Sekunden langen Satz spricht, puffert Voxis dieses Segment und versendet es als zusammenhängende Äußerung – es schneidet die Sprache nicht mitten im Wort ab.
Die VAD-Stufe löst auch das Selbstausschluss-Problem. VoxisLive verfolgt seine eigene Sprachausgabe und unterdrückt diese Frames, damit die Übersetzungsschleife nie ihre eigene Stimme hört und diese erneut übersetzt. Dies ist eine Voraussetzung für zuverlässigen bidirektionalen Betrieb und wird vollständig lokal gehandhabt.
Wie übersetzt VoxisLive in Echtzeit?
Nach der Spracherkennung wird das Audiosegment an Gemini Live – Googles multimodales Echtzeitmodell – zur Sprache-zu-Sprache-Übersetzung übergeben. Gemini Live akzeptiert direkt Audioeingabe und gibt übersetzte Audioausgabe zurück, d. h. es übernimmt sowohl die Transkription als auch die Übersetzung in einem einzigen Durchlauf mit niedriger Latenz, anstatt einen separaten Spracherkennungsdienst mit einem Übersetzungsdienst und einem Text-zu-Sprache-Dienst zu verketten.
Diese Architektur macht simultanstilmäßige Übersetzung möglich. Herkömmliche Übersetzungspipelines haben drei sequenzielle Netzwerkaufrufe (ASR → MT → TTS), von denen jeder Hunderte von Millisekunden Latenz hinzufügt. Gemini Live bündelt diese zu einem einzigen Streaming-Aufruf. VoxisLive verwaltet den Sitzungslebenszyklus, streamt das Audio ein und stellt die übersetzte Audiowiedergabe in die Warteschlange. Erfahren Sie mehr über Sprache-zu-Sprache-Übersetzung und warum sie textbasierte Pipelines übertrifft.
VoxisLive ist Open-Core: Sie können Ihren eigenen Gemini-API-Schlüssel (BYOK) ohne Abonnementkosten mitbringen – die Übersetzung läuft gegen Ihr eigenes Google AI-Kontingent. Wenn Sie keine API-Schlüssel verwalten möchten, bieten die Creator ($19/Monat) und Pro ($39/Monat) Pläne verwaltete Cloud-Minuten ohne Einrichtungsaufwand. Pläne auf der Preisseite vergleichen.
Wie gibt VoxisLive die Übersetzung wieder?
Das übersetzte Audio von Gemini Live wird über Ihr Standard-Ausgabegerät in einer natürlichen synthetisierten Stimme wiedergegeben. Zwei Signalverarbeitungsschritte laufen dabei gleichzeitig ab:
Psychoakustisches Ducking. In dem Moment, in dem die Übersetzungsaudio abgespielt wird, wird der ursprüngliche Quelleton kurz in der Lautstärke reduziert (gedämpft). Dies spiegelt die Arbeitsweise professioneller Simultandolmetscher wider – die Stimme des Dolmetschers liegt über dem Original, anstatt auf gleicher Ebene mit ihm zu konkurrieren. Das Ergebnis ist, dass Sie die Übersetzung klar hören, ohne den akustischen Kontext des Originals (Ton, Emotion, Sprecheridentität) zu verlieren.
Latenzsynchronisierung. Voxis synchronisiert die Übersetzungswiedergabe mit dem entsprechenden Sprachsegment und kompensiert dabei die variable Verarbeitungszeit des Gemini-Live-Aufrufs. Dies verhindert, dass die übersetzte Stimme bei langen Sitzungen mit der Bildschirmhandlung aus dem Takt gerät.
Die Qualität der Ausgabestimme wird durch die Synthese von Gemini Live bestimmt, die eine menschenähnliche Prosodie erzeugt. Voxis wendet keine zusätzliche Kompression oder Entzerrung an, die die Stimmklarheit beeinträchtigen würde.
Ist VoxisLive Simultandolmetschen — ist es wirklich Echtzeit?
VoxisLive ist nahezu-simultan, nicht nullverzögert. Es gibt eine inhärente Mindestlatenz zwischen dem Ende einer Äußerung durch den Sprecher und dem Zeitpunkt, an dem Voxis die Übersetzung spricht – das ist die Zeit, die die VAD benötigt, um zu bestätigen, dass die Äußerung beendet ist, plus den Gemini-Live-Round-Trip. In der Praxis unter normalen Netzwerkbedingungen beträgt dies etwa eine bis zwei Sekunden hinter dem Originalton.
Zum Vergleich: Professionelle menschliche Simultandolmetscher in einem UN-Kabinett arbeiten typischerweise zwei bis vier Sekunden hinter dem Sprecher. VoxisLive arbeitet in diesem Bereich oder schneller, abhängig von Äußerungslänge und Netzwerklatenz. Es eignet sich nicht für Anwendungen, die Nulllatenz erfordern (z. B. Echtzeit-Untertitel-SLAs), liegt aber gut innerhalb der Schwelle, die Medien, Meetings und Gaming komfortabel macht.
Die Übersetzungsqualität skaliert mit der Äußerungslänge. Voxis sammelt eine vollständige Äußerung, bevor es übersetzt, was Gemini Live genug Kontext für genaue Ausgabe liefert. Sehr kurze Fragmente („Ja", „Okay", „Danke") werden zusammengeführt oder zurückgestellt, um schlechte Ein-Wort-Übersetzungen zu vermeiden.
Erkunden Sie, wie Voxis Live-Meetings und Spielaudio-Übersetzung handhabt.
Meetings — tritt VoxisLive als Bot bei?
Nein. VoxisLive tritt einem Anruf nie als Bot-Teilnehmer bei, fordert keine Meeting-Host-Berechtigungen an und interagiert auf keine Weise mit der Meeting-Anwendung. Es liest den Ton, den die Meeting-App (Zoom, Teams, Google Meet, Discord) bereits über WASAPI-Loopback auf Ihren Lautsprechern abspielt, genau wie jede Aufnahmesoftware. Aus Sicht der Meeting-Plattform existiert VoxisLive nicht.
Dies hat drei praktische Konsequenzen. Erstens sehen andere Teilnehmer nie einen Bot-Eintrag in der Teilnehmerliste. Zweitens funktioniert VoxisLive mit jeder Meeting-Plattform, ohne eine plattformspezifische Integration zu benötigen – wenn es Audio auf Windows abspielt, kann Voxis es übersetzen. Drittens besteht keine Abhängigkeit von Plattform-APIs, die widerrufen oder ratenbegrenzt werden können.
Der bidirektionale Meeting-Modus funktioniert genauso: Voxis erfasst beide Richtungen aus dem Systemaudio-Mix. Es unterscheidet seine eigenen Ausgabe-Frames (mithilfe des oben beschriebenen Selbstausschlussmechanismus), damit Sprecher B keine Doppelübersetzung der Antwort hört, die Voxis gerade für Sprecher A synthetisiert hat.
Sehen Sie sich VoxisLives Meeting-Anwendungsfall-Seite für eine schrittweise Anleitung an.
Datenschutz und BYOK — wo gehen meine Audiodaten hin?
Mit BYOK (Ihr Gemini-API-Schlüssel): Audio geht direkt von Ihrem Gerät zum Google AI-API-Endpunkt, der Ihrem eigenen Google-Konto zugeordnet ist. VoxisLives Server befinden sich nicht im Pfad. Googles Datenverarbeitung für die Gemini API unterliegt Googles eigenen Nutzungsbedingungen und KI-Grundsätzen. VoxisLive speichert, protokolliert oder verarbeitet dieses Audio nicht.
Mit verwalteten Plänen (Creator / Pro): Audiosegmente gelangen zur Cloud-Infrastruktur von VoxisLive, die den Aufruf an Gemini Live weiterleitet. VoxisLive verarbeitet Audio während der Übertragung und speichert keine Audioinhalte nach dem Ende der Übersetzungssitzung. Siehe die Datenschutzrichtlinie für den vollständigen Datenspeicherplan.
In beiden Modi bedeutet die geräteseitige VAD-Stufe, dass Stille und Nicht-Sprach-Audio Ihr Gerät überhaupt nie verlassen. Nur bestätigte Sprachsegmente werden übertragen.
VoxisLive ist eine Einzelbenutzer-Lokalanwendung. Es zeichnet keine Umgebungsgeräusche im Hintergrund auf, läuft nicht als Systemdienst, es sei denn, Sie konfigurieren es so, und hat keinen Mikrofonzugang (es erfasst System-Ausgabe-Audio, nicht Mikrofoneingabe).
Häufige Fragen
Funktioniert VoxisLive mit Kopfhörern und Bluetooth-Audio?
Ja. WASAPI-Loopback erfasst den Audiomix auf der Windows-Mixer-Ebene, bevor er an ein bestimmtes Ausgabegerät gesendet wird. Der Wechsel zwischen Kopfhörern, Lautsprechern oder Bluetooth beeinträchtigt die Aufnahme nicht. Die Übersetzungsausgabe folgt Ihrem Standard-Wiedergabegerät.
Funktioniert es, wenn der Originalton nicht auf Englisch ist?
VoxisLive unterstützt mehrsprachigen Quellton. Gemini Live erkennt die Quellsprache intern. Sie konfigurieren Ihre Zielsprache (Ausgabesprache) und Voxis erledigt den Rest, unabhängig davon, in welcher Sprache die Quelle ist.
Muss ich ein Terminal oder eine Eingabeaufforderung geöffnet lassen?
Nein. VoxisLive läuft als Standard-Windows-Anwendung mit grafischer Oberfläche. Für die normale Nutzung ist keine Befehlszeile erforderlich.
Gibt es eine kostenlose Version?
Ja. Der Developer-Tarif ist kostenlos und verwendet Ihren eigenen Gemini-API-Schlüssel (BYOK). Google bietet kostenloses API-Kontingent für Gemini an, sodass die Übersetzung je nach Ihrer Nutzung wirklich kostenlos sein kann. VoxisLive herunterladen oder alle Pläne ansehen.
Bereit, es auszuprobieren? VoxisLive für Windows herunterladen — kostenlos starten, kein virtuelles Kabel erforderlich.
Hören Sie jede Sprache, in Echtzeit.
HerunterladenHäufig gestellte Fragen
Benötigt VoxisLive ein virtuelles Audiokabel oder eine Treiberinstallation?
Nein. VoxisLive erfasst Systemton über nativen Windows-WASAPI-Loopback — die gleiche API, die Bildschirmrekorder verwenden. Es gibt kein VB-CABLE, keinen zu installierenden Treiber und keine Änderung an Ihrem Audio-Routing, sodass nach der Nutzung nichts zu deinstallieren ist.
Wie Echtzeit ist die Übersetzung?
VoxisLive ist nahezu-simultan, nicht nullverzögert. Unter normalen Netzwerkbedingungen spricht es die Übersetzung etwa eine bis zwei Sekunden hinter dem Original — der gleiche Bereich, in dem professionelle menschliche Dolmetscher arbeiten — nachdem die geräteseitige Spracherkennung die Äußerung bestätigt und Gemini Live das übersetzte Audio zurückgibt.
Tritt VoxisLive meinen Meetings als Bot bei?
Nein. VoxisLive tritt einem Anruf nie als Teilnehmer bei oder fragt nach Host-Berechtigungen. Es liest den Ton, den die Meeting-App bereits auf Ihren Lautsprechern abspielt, sodass andere Teilnehmer nie einen Bot in der Liste sehen — und es funktioniert mit Zoom, Teams, Google Meet und Discord ohne plattformspezifische Integration.