Adım 1 — Sürücüsüz ses yakalama
VoxisLive, WASAPI loopback kullanır — ekran kayıt programlarının “o anda çalanı” yakalamak için kullandığı düşük seviyeli Windows Audio Session API'sinin ta kendisi. Bu, Windows'un yerleşik bir yeteneğidir: sanal ses kablosu yok, sürücü kurulumu yok, ses yönlendirmesinde değişiklik yok. Yakalama, oynatmaya göre sıfır gecikmelidir ve duyulabilir hiçbir bozulma eklemez.
Rakip araçlar sesi genellikle VB-CABLE gibi sanal aygıtlar üzerinden yönlendirir; bunlar sürücü kurulumu gerektirir (çoğu zaman yönetici yetkisi ve yeniden başlatma) ve özel modda çalışan ses aygıtları, ASIO sürücüleri veya hile koruma sistemleriyle çakışabilir. VoxisLive bu sorun sınıfını tamamen ortadan kaldırır.
Adım 2 — Cihaz üstü konuşma algılama
Uygulama, konuşmayı sessizlikten, arka plan gürültüsünden ve müzikten ayırmak için cihaz üstü ses etkinliği algılama (VAD) çalıştırır — yerel olarak, senin işlemcinde, ağa hiç çıkmadan. Yalnızca insan konuşması olarak tanımlanan bölümler çeviriye ilerler; bu hem gecikmeyi azaltır hem de dakika bakiyeni korur. VAD ayrıca VoxisLive'ın kendi sesli çıkışını da takip eder, böylece uygulama kendi sesini asla yeniden çevirmez.
Adım 3 — Tek geçişte simültane çeviri
Konuşma bölümleri; tanımayı, çeviriyi ve ses sentezini tek bir düşük gecikmeli geçişte gerçekleştiren çok modlu gerçek zamanlı bir modele gider — geleneksel hattın üç ardışık ağ çağrısını (konuşmadan metne → çeviri → metinden konuşmaya) teke indirir. Kabindeki bir insan tercüman gibi, konuşmacı henüz konuşurken çevirmeye başlar.
Adım 4 — Ses kısmalı sesli oynatma
Çevrilmiş ses, çıkış aygıtından çalarken iki şey paralel olarak gerçekleşir: psikoakustik ses kısma, çeviri konuşurken orijinal sesi alçaltır (profesyonel simültane çeviride olduğu gibi) ve gecikme senkronizasyonu, her çeviriyi kendi konuşma bölümüyle hizalı tutar; böylece uzun oturumlarda kayma yaşanmaz.
