FUNKTIONEN

Alles, was VoxisLive kann, im Detail.

VoxisLive ist eine Windows-App, die beliebiges Systemaudio in eine natürliche Stimme in Ihrer Sprache verwandelt — etwa zwei Sekunden hinter dem Sprecher. Hier ist jede wichtige Funktion erklärt.

Treiberlose Systemaudio-Erfassung

VoxisLive liest Ihren Windows-Audiomix direkt über WASAPI-Process-Loopback — dieselbe systemnahe Windows Audio Session API, mit der Bildschirmrekorder aufzeichnen, was gerade läuft. Es gibt kein VB-CABLE, kein virtuelles Soundgerät und nichts zu routen. Installieren Sie die App, und sie hört, was Sie hören — sofort, unter Windows 10 und 11.

Die Erfassung schließt außerdem die eigene Ausgabe von VoxisLive aus, sodass die App nie ihre eigene Stimme übersetzt — selbst in einem Zwei-Wege-Gespräch.

79 Sprachen, mitten in der Sitzung wechselbar

Wählen Sie aus 79 Sprachen, was Sie hören und was Sie sprechen, und tauschen Sie das Paar mit einem Klick, ohne die Sitzung zu stoppen. Die automatische Erkennung der Ausgangssprache bewältigt mehrsprachiges Audio.

Zwei-Wege-Meeting-Modus

Der Meeting-Modus führt zwei Live-Sitzungen gleichzeitig aus: Die Gegenseite wird über Ihre Lautsprecher in Ihre Sprache übersetzt, und Ihre eigene Sprache wird in deren Sprache übersetzt und über ein virtuelles Mikrofon eingespeist. Funktioniert parallel zu Teams, Zoom, Meet, Webex und Discord — und in der Teilnehmerliste erscheint nie ein Bot.

VoxisLive im Meeting-Modus, der beide Richtungen im hellen Design übersetzt

Ein nativer Simultandolmetscher, keine Pipeline

Die Sprache geht an ein multimodales Echtzeitmodell, das in einem einzigen Durchgang mit niedriger Latenz erkennt, übersetzt und neu spricht — so, wie ein menschlicher Dolmetscher in der Kabine arbeitet. Es beginnt zu übersetzen, während der Sprecher noch spricht, und bleibt rund zwei Sekunden dahinter; professionelle Simultandolmetscher arbeiten typischerweise zwei bis vier Sekunden dahinter.

Psychoakustisches Ducking

Während die übersetzte Stimme spricht, wird das Originalaudio automatisch abgesenkt — analog zum professionellen Simultandolmetschen — und beim Ende der Zeile wiederhergestellt. Sie wissen immer, wer spricht.

Zweisprachiges Live-Transkript & Export

Jede Sitzung erzeugt ein durchsuchbares zweispaltiges Transkript — die Originalzeile und Ihre Sprache nebeneinander. Exportieren Sie es als TXT, SRT oder VTT, wenn die Sitzung endet.

Untertitel auf dem Bildschirm, wenn Sie sie möchten

Ein optionales, stets im Vordergrund liegendes Untertitel-Overlay schwebt über jeder App oder jedem Spiel mit einer zweistufigen Beschriftung: der Ausgangszeile und Ihrer. Die gesprochene Stimme ist das Produkt; die Untertitel sind da, wenn Sie eine Aufzeichnung brauchen.

VoxisLive übersetzt ein Video mit einem zweisprachigen Live-Transkript

Von Grund auf privat

VoxisLive tritt Ihrem Anruf nie als Teilnehmer bei und ist kein Browser-Bot. Dank der Sprachaktivitätserkennung auf dem Gerät verlassen Stille und Nicht-Sprach-Audio Ihren Rechner nie; nur erkannte Sprachsegmente gehen an das Übersetzungsmodell, und nach der Sitzung wird kein Audio aufbewahrt. Der quelloffene BYOK-Build sendet Audio unter Ihrem eigenen Schlüssel direkt an Google — die Server von VoxisLive sind nie beteiligt.

Open-Core

Die Desktop-Engine ist quelloffen auf GitHub. Führen Sie sie kostenlos mit Ihrem eigenen Gemini-API-Schlüssel aus, prüfen Sie die gesamte Audio-Pipeline, oder installieren Sie die verwaltete App aus dem Microsoft Store mit Prepaid-Minuten und null Konfiguration.

FAQ

Häufige Fragen

01Braucht VoxisLive ein virtuelles Audiokabel?

Nein. VoxisLive nutzt das treiberlose WASAPI-Process-Loopback, das in Windows 10 und 11 integriert ist — es gibt kein VB-CABLE, keinen virtuellen Audiotreiber und kein Routing-Tool zu installieren, und Ihre Audio-Einrichtung bleibt unverändert.

02Ist die Übersetzung gesprochen oder als Untertitel?

Sie ist gesprochen. VoxisLive liefert Sprache-zu-Sprache-Übersetzung in Echtzeit mit natürlicher Stimme. Ein zweisprachiges Live-Transkript und ein optionales Untertitel-Overlay auf dem Bildschirm sind ebenfalls verfügbar und lassen sich als TXT, SRT oder VTT exportieren.

03Wie weit hinter dem Sprecher liegt die Übersetzung?

Etwa zwei Sekunden, abhängig von Äußerungslänge und Netzwerklatenz. Das Modell beginnt zu übersetzen, während der Sprecher noch spricht, statt auf das Satzende zu warten.

04Mit welchen Apps funktioniert es?

Mit allem, was unter Windows Audio abspielt: Browser, Desktop-Player, Spiele und Konferenz-Apps wie Teams, Zoom, Meet, Webex oder Discord. Die Erfassung erfolgt auf der Audioebene des Betriebssystems, die Quell-App ist also unerheblich.

Kostenlos testen · 10 Minuten geschenkt

Hören Sie jede Sprache, in Echtzeit.

Läuft auf Windows 10 und 11 — keine Treiber, kein Einrichtungsritual, kein Bot in Ihrem Anruf.

Jetzt im Microsoft Store Open Source auf GitHub