Powered by Gemini Live · Echtzeit-Sprache-zu-Sprache

Übersetzung, die zurückspricht.
In Echtzeit.

Die meisten Live-Übersetzer zeigen nur Untertitel. Voxis spricht jedes Video, Spiel und Meeting in Ihrer Sprache zurück – genau dann, wenn es passiert. Keine Treiber. Nichts zu lesen.

Auch im Microsoft Store erhältlich Auch als Chrome-Erweiterung verfügbar
Direkte Hardware-Loopback

Null Treiber.
Direkte Audioaufnahme.

Kein VB-CABLE, keine virtuellen Soundkarten. Voxis erfasst den Systemmix direkt auf der WASAPI-Ebene und dämpft andere Prozesse an der Quelle, um Rückkopplungsschleifen zu verhindern.

Open-Core-Souveränität

Zwei Wege.
Ihre Schlüssel oder unsere Cloud.

Voxis ist als selbstgehostete Engine auf GitHub und als verwalteter SaaS-Build erhältlich. Nutzen Sie Ihre eigenen Schlüssel lokal für vollständige Privatsphäre, oder lassen Sie unser schnelles Go-Backend die Übersetzung sofort weiterleiten.

Scrollen zum Entdecken
Architektur

Wählen Sie Ihre Ausführungsebene

Voxis ist ein echtes Open-Core-Framework. Führen Sie es lokal mit Ihrem eigenen Schlüssel und gerätebasierter Spracherkennung aus, oder nutzen Sie unsere blitzschnelle, verwaltete Cloud mit einfacher Anmeldung.

Open-Core

GitHub / BYOK

Übernehmen Sie die vollständige Kontrolle über Ihre Übersetzungskonfiguration. Bringen Sie Ihren eigenen Gemini API-Schlüssel mit, führen Sie die Engine lokal aus und prüfen Sie den Open-Core-Pipeline-Code direkt auf GitHub.

  • Ihr Gemini-Schlüssel wird auf dem Gerät verschlüsselt
  • Null Infrastrukturkosten (direkt an den LLM-Anbieter zahlen)
  • Vollständig prüfbare Open-Source-Engine
Kostenlose Open-Source-Lizenz Repository ansehen
SaaS Verwaltet

Offizieller Release-Build

Das Premium-Managed-Erlebnis. Holen Sie sich die offizielle Microsoft Store-App mit blitzschneller WASAPI-Aufnahme. Authentifizieren Sie sich sofort über unser hochleistungsfähiges Go-Auth-Core-Backend, das Sitzungen und verwaltete Minutenkontingente über PocketBase verfolgt.

Go Auth-Core-Backend

JWT-Token-Signierung, Sitzungs-Rate-Limiting und Zero-Trust-Verschlüsselung.

Cloud-Minutenkontingente

Blitzschneller PocketBase-Cloud-Speicher zur Echtzeit-Verfolgung von Kontingenten.

v1.0.15 (Offizielle Microsoft Store-App) Im Microsoft Store erhältlich

Eine Engine. Jedes Gespräch.

English Türkçe 日本語 Español Deutsch Français 中文 한국어 Português Italiano Русский العربية English Türkçe 日本語 Español Deutsch Français 中文 한국어 Português Italiano Русский العربية English Türkçe 日本語 Español Deutsch Français 中文 한국어 Português Italiano Русский العربية
Die Barriere

Die besten Ideen sind
hinter Sprache gesperrt.

Ein bahnbrechender Vortrag auf Japanisch. Ein Teamkollege in Berlin. Ein Streamer in São Paulo. Heute pausieren Sie, kopieren, fügen in einen Übersetzer ein, verpassen den Moment – und lesen statt zu hören.

Untertitel unterbrechen den Fluss

Text lesen während man schaut bedeutet, die Gesichter, das Timing, den Raum zu verpassen. Übersetzung sollte Ihre Ohren erreichen, nicht Ihre Augen stehlen.

Live-Momente warten nicht

Meetings und Streams laufen in Echtzeit. Copy-Paste-Tools sind für Dokumente gebaut – nicht für ein Gespräch, das bereits drei Sätze voraus ist.

Die Einrichtung steht im Weg

Virtuelle Kabel, Routing-Regeln, zerbrechliche Audioketten. Die meisten Tools verlangen, dass Sie Audioingenieur werden, bevor Sie ein einziges Wort hören.

Der Weg

Von der Schallwelle zum Verständnis

Voxis sitzt leise neben Ihrem Systemton und verwandelt ihn in eine übersetzte Stimme – vier Schritte, alle live im Stream.

1 Aufnahme

Systemton, treiberlos

Process-exclude WASAPI Loopback erfasst genau den Mix, den Sie hören – und schließt Voxis selbst aus, damit es seine eigene Stimme niemals übersetzt.

2 Erkennen

Nur echte Sprache

Gerätebasiertes Silero VAD isoliert Sprache von Lärm und Musik, während das Original-Audio sanft gedämpft wird, damit die Übersetzung führen kann.

3 Übersetzen

Gemini Live, Streaming

Eine Live-Sprache-zu-Sprache-Sitzung übersetzt, sobald die Wörter ankommen – kein Warten auf vollständige Sätze, keine Copy-Paste-Umwege.

4 Sprechen

Natürliche Stimme, synchronisiert

Eine 24-kHz-Stimme wird in Ihre Kopfhörer zurückgespielt – oder ein virtuelles Mikrofon für Anrufe. Da sie mit dem Raum synchronisiert ist, fühlt sie sich nie verzögert an.

Zwei Arten zu hören

Eine App, für beides gebaut:
Schauen und Sprechen.

JA → DE
この戦略は完璧に機能している。
Diese Strategie funktioniert perfekt.
EN → DE
Please go ahead.
Bitte fahren Sie fort.
WASAPI-Loopback-Aufnahme
Eingehender Ton

Video & Spiel

Einwegübersetzung von allem, was abgespielt wird – Streams, Filme, Vorlesungen, Live-Gameplay. Das Original wird gedämpft, die Übersetzung übernimmt die Führung.

  • Erfasst Systemton ohne jedes Routing
  • Intelligentes Ducking hält Musik im Hintergrund
  • Optionale On-Screen-Untertitel & Live-Transkript
Ducking-Tiefe 98%
Wiedergabe-Sync RTT-ausgerichtet
Unter der Haube

Für den Moment entwickelt

Jedes Detail so abgestimmt, dass Übersetzung wie ein Teil des Audios klingt – nicht wie eine aufgeschraubte Schicht.

Treiberlos konzipiert

Kein VB-CABLE, keine virtuelle Soundkarte, keine Routing-Diagramme. Voxis erfasst den Systemmix direkt und dämpft andere Apps an der Quelle. Installieren, anmelden, hören – das ist die gesamte Einrichtung.

Studioqualitäts-Ducking

Ein psychoakustischer Ducker schafft Platz für die übersetzte Stimme und bewahrt dabei Musik und Ambiente des Originals.

Stimme nach Wahl

Wählen Sie eine natürliche Gemini-Stimme für das übersetzte Audio.

Live-Transkript

Jede Übersetzung wird in ein Transkript und optionales Overlay gestreamt – speichern Sie es am Ende als Datei.

Latenzoptimiert

Ein RTT-Schätzer hält die übersetzte Stimme mit dem Original synchron, damit der Dialog nie aus dem Takt gerät.

Qualitätsvoreinstellungen & Profile

Wechseln Sie zwischen Voreinstellungen für Klarheit, Geschwindigkeit oder Wiedergabetreue – und speichern Sie Ihre bevorzugte Konfiguration als Profil, das Sie per Klick abrufen können.

Schlüssel bleiben bei Ihnen

Bringen Sie Ihren eigenen Schlüssel, auf dem Gerät verschlüsselt – oder nutzen Sie den verwalteten SaaS-Schlüssel. Jede Sitzung Ihre Wahl.

0+ Sprachen, ein- und ausgehend
0kHz Studioqualitäts-Übersetzungsstimme
0 Modi — Schauen & Sprechen
Null Zu installierende virtuelle Treiber
Open Core · standardmäßig privat

Vertrauenswürdig,
inspizierbar.

Voxis ist als offizielle SaaS-App und als Open-Source-Build auf GitHub erhältlich. Die Audio-Engine ist dieselbe – und Sie können genau lesen, was sie tut.

  • Open-Source-Engine

    Prüfen, forken und selbst hosten Sie die Desktop-Engine aus dem öffentlichen GitHub-Build.

  • Schlüssel auf dem Gerät verschlüsselt

    Mitgebrachte Schlüssel werden mit Fernet versiegelt, an Ihr Gerät und Konto gebunden – nutzlos, wenn anderswo kopiert.

  • Spracherkennung läuft lokal

    Silero VAD entscheidet auf Ihrem Gerät, was Sprache ist, bevor etwas zur Übersetzung gesendet wird.

  • Transkripte bleiben bei Ihnen

    Gespeicherte Transkripte werden auf Ihre eigene Festplatte geschrieben – nie in eine Cloud, die Sie nicht kontrollieren.

routing.py
# Same Live session lifecycle — two key sources
if IS_OFFICIAL_RELEASE:
    key = server.session_key()      # SaaS: per-session
else:
    key = byok.load(user_id)        # BYOK: local only

# Fernet, bound to MachineGuid + user_id
fkey = sha256(
    machine_guid, user_id, "voxis-byok-v1"
)

session = LiveTranslator(
    model = "gemini-3.5-live-translate-preview",
    target = cfg.target_language_incoming,
    sample_rate_out = 24000,
)
session.stream()   # quota enforced server-side
Preise

Kostenlos starten. Wachsen Sie mit Ihren Anforderungen.

Jeder Plan schaltet die vollständige Engine frei – beide Modi, jede Sprache. Sie wählen nur, wie viele Minuten Sie benötigen.

Developer (BYOK)

Für Entwickler, die aus dem Quellcode kompilieren. Lokal mit eigenem Gemini API-Schlüssel ausführen – Ihr Schlüssel bleibt auf Ihrem Gerät.

$0 / Unbegrenzt
Dauerhafter Zugang
  • Zugang zum GitHub-Repository
  • BYOK-Integration & lokale Verarbeitung
  • Community-Support & Quell-Transparenz
Auf GitHub forken

Creator

Offizielle Microsoft Store-App mit 700 verwalteten Minuten pro Monat. Keine Konfiguration, keine API-Schlüssel erforderlich.

$19 /Monat
700 verwaltete Minuten / Monat
  • Offizielle Microsoft Store-App
  • 700 verwaltete Minuten / Monat
  • Keine API-Schlüssel erforderlich
Beliebtester

Pro

Für Agenturen und Power-User. 1.500 verwaltete Minuten pro Monat mit priorisiertem DSP-Pipeline-Routing und kommerzieller Nutzungslizenz.

$39 /Monat
1.500 verwaltete Minuten / Monat
  • 1.500 verwaltete Minuten / Monat
  • Priorisiertes DSP-Pipeline-Routing
  • Kommerzielle Nutzungslizenz

Enterprise

Für Teams und Unternehmen.

Individuell
Unbegrenzte Minuten
  • Alles aus Pro
  • Self-Hosting & BYOK im großen Maßstab
  • Dedizierter Support & SLA
Vertrieb kontaktieren

Preise sind monatliche Abonnements, die über Stripe abgerechnet werden; jederzeit aus Ihrem Konto kündigen. Neue Konten erhalten 10 kostenlose Minuten – oder bringen Sie Ihren eigenen Schlüssel mit, um auf Ihrem eigenen Kontingent zu übersetzen.

Aufhören zu lesen.
Anfangen zu verstehen.

Laden Sie Voxis herunter und verwandeln Sie jeden Ton Ihres Computers live in Ihre Sprache.

Windows 10 & 11 · Kostenlos starten · Keine Kreditkarte

FAQ

Häufige Fragen

Zuletzt aktualisiert: Juni 2026

Was ist Voxis?

Voxis ist eine Echtzeit-Sprachübersetzungs-App für Windows, die den Ton Ihres Computers – Videos, Spiele, Anrufe und Meetings – beim Zuhören in Ihre Sprache übersetzt und in einer natürlichen Stimme zurückspricht. Es funktioniert als Live-Simultandolmetschen: Es erfasst den Systemton direkt (treiberlos – keine virtuellen Audiokabel), erkennt Sprache auf dem Gerät und wird von Gemini Live betrieben.

Ist Voxis Echtzeit- oder Simultandolmetschen?

Beides. Voxis führt Echtzeit-Interpretation von allem aus, was Ihr PC abspielt – es hört zu, übersetzt und spricht das Ergebnis mit nur kurzer Verzögerung zurück, damit Sie einem Video, Stream oder Meeting live folgen können, anstatt nachträglich Untertitel zu lesen.

Benötigt Voxis virtuelle Audiokabel oder einen Meeting-Bot?

Nein. Voxis erfasst Windows-Systemton direkt über WASAPI Loopback – keine virtuellen Audiokabel (VB-CABLE), keine Treiberinstallation und kein Bot, der Ihrem Zoom-, Teams- oder Google Meet-Anruf beitritt. Die meisten Live-Übersetzungstools sind auf das eine oder andere angewiesen; Voxis läuft lokal neben Ihrem Audio.

Wie unterscheidet es sich von Untertiteln?

Untertitel-Tools zeigen Bildunterschriften an, die man lesen muss, was die Augen vom Bildschirm ablenkt. Voxis spricht die Übersetzung in einer natürlichen Stimme mit psychoakustischem Ducking und Latenz-Sync zurück, damit Sie weiter schauen, spielen oder reden können, während Sie in Ihrer eigenen Sprache zuhören.

Was kann Voxis übersetzen?

Alles, was Ihr Computer abspielt: fremdsprachige Videos und Nachrichten, Spielton, Online-Kurse, Podcasts sowie Zoom-, Teams- oder Discord-Anrufe. Ein bidirektionaler Meeting-Modus übersetzt beide Seiten eines Gesprächs in Echtzeit.

Ist Voxis privat und was kostet es?

Spracherkennung läuft auf dem Gerät. Sie können Ihren eigenen Gemini API-Schlüssel mitbringen (Entwickler / BYOK, kostenlos), um vollständig auf Ihrem eigenen Kontingent zu übersetzen, oder verwaltete Cloud-Minuten nutzen – Creator ($19/Monat) und Pro ($39/Monat). Neue Konten erhalten 10 kostenlose Minuten.