DeepL AI Labs

Překlad hlasu v reálném čase: Jak DeepL utváří budoucnost globální komunikace

Začínáme: Správný základ

Naše cesta začala zásadní výzvou: vytvořit engine pro převod řeči na text, který splňuje standardy DeepL pro přesnost. Překročili jsme rámec stávajících architektur a vyvinuli vlastní modely prostřednictvím cíleného procesu pokročilého školení a vysoce kvalitního zušlechťování dat. Tento přístup přinesl jasnou výkonnostní výhodu.

Naše interní benchmarky ukazují, že naše modely dosahují špičkové míry chybovosti (WER) a poskytují přesnější transkripce než zavedení konkurenti. Místo veřejných benchmarků hodnotíme kvalitu transkripce na pečlivě sestaveném vlastním testovacím souboru, který odráží obchodní případy, na kterých našim zákazníkům záleží.

[„Přesnost převodu řeči na text (míra chybovosti slov) modelů“, srovnání nižší míry chybovosti slov DeepL Voice s Amazon Transcript a Microsoft Azure AI Speech. Čím nižší, tím lepší.]

Těžká část: Odstranění latence a blikání

Skvělá transkripce je jen začátek. Překlad měnící se transkripce v reálném čase přináší náročné výzkumné otázky. Při překladu transkripce – například první části delší věty – je těžké odhadnout, jak bude mluvčí pokračovat. Většina nástrojů první generace přistupovala k tomuto problému dvěma způsoby: buď čekáním, až bude k dispozici celá věta, což vede k vysoké latenci překladu, nebo neustálou aktualizací překladu, což způsobuje nepříjemné „blikání“ (více o tom zde).

V případě DeepL Voice máme ambici poskytovat plynulou uživatelskou přívětivost při zachování vysoké kvality překladu a nízké latence. Díky našim dlouholetým zkušenostem s výzkumem v oblasti neuronového strojového překladu máme jedinečnou pozici, abychom posunuli hranice překladu v reálném čase a poskytovali jedinečně plynulý a stabilní proud přeloženého textu.

Podívejte se na rozdíl mezi těmito vedle sebe umístěnými záznamy obrazovky DeepL Voice for Meetings (na pravé straně) a překlady Microsoft Teams (na levé straně).

Vytvořením tohoto stabilního textového proudu jsme vyřešili hlavní překážku bránící dosažení skutečného cíle: snadné a vysoce kvalitní hlasové konverzace. Přirozeně znějící zvukový výstup prostě není možný, pokud je generován z nestabilního, blikajícího skriptu.

Poslední krok: Voice v reálném čase

S tímto klíčem na místě jsme nadšeni, že můžeme oznámit, že projekt DeepL Voice-to-Voice je nyní aktivně vyvíjen v DeepL AI Labs. První výsledky jsou neuvěřitelně slibné.

V souladu s naším posláním budovat budoucnost pracovních postupů AI pro obchodní firmy působící po celém světě. Vysoce kvalitní překlady hlasu z řeči do řeči v reálném čase pro mnoho jazyků jsou nyní na dosah!

Zde je hrubý náhled modelů převodu textu na řeč (TTS) s podporou klonování hlasu, na kterých výzkumný tým v současné době pracuje. Kvalitu můžete posoudit sami.

Vzor hlasu

TTS s klonováním hlasu

Vzor hlasu

TTS s klonováním hlasu

Vzor hlasu

TTS s klonováním hlasu

Vzor hlasu

TTS s klonováním hlasu

Vzor hlasu

ES – TTS s klonováním hlasu Voice

Vzor hlasu

ES – TTS s klonováním hlasu Voice

Vzor hlasu

TTS s klonováním hlasu Voice

Vzor hlasu

TTS s klonováním hlasu Voice

Dobrý model TTS je však pouze základem pro skvělý zážitek z převodu hlasu na hlas. Vytvoření produktu, který funguje v reálném čase, vyžaduje mnohem více: strategii pro fragmentovanou inferenci, plynulé řetězení generovaného zvuku a řízení výstupní rychlosti pro dosažení minimální latence.

Kvalita, kterou jste právě slyšeli, je naše nová základní úroveň. Tato technologie je pro nás klíčová a v průběhu roku, kdy se budou blížit významné události, budeme sdílet další ukázky a podrobnější informace. Budoucnost komunikace založené na AI je téměř tady!

Sdílet

Sledujte nás

Získejte náhled na naše nejnovější inovace v oblasti AI.