DeepL AI Labs

Tłumaczenie głosowe w czasie rzeczywistym: Jak DeepL kształtuje przyszłość globalnej komunikacji

Pierwsze kroki: Właściwy fundament

Nasza podróż rozpoczęła się od podstawowego wyzwania: stworzenia silnika zamiany mowy na tekst, który spełnia standardy dokładności DeepL. Wykroczyliśmy poza istniejące architektury, opracowując własne modele w ramach ukierunkowanego procesu zaawansowanych szkoleń i wysokiej jakości udoskonalania danych. To podejście przyniosło wyraźną przewagę wydajnościową.

Nasze wewnętrzne testy porównawcze pokazują, że nasze modele osiągają wiodący na rynku wskaźnik błędów słownych (WER), zapewniając dokładniejsze transkrypcje niż uznani konkurenci. Zamiast publicznych benchmarków, oceniamy jakość transkrypcji na podstawie starannie dobranego, autorskiego zestawu testowego, który odzwierciedla przypadki użycia biznesowego ważne dla waszych klientów.

[„Dokładność funkcji zamiany mowy na tekst (wskaźnik błędów słownych) modeli” – porównanie niższego wskaźnika WER DeepL Voice z Amazon Transcript i Microsoft Azure AI Speech. Im niżej, tym lepiej.

Trudna część: Eliminacja opóźnień i migotania

Doskonała transkrypcja to dopiero początek. Tłumaczenie na bieżąco zmieniającej się transkrypcji stwarza trudne pytania badawcze. Podczas tłumaczenia pośredniej transkrypcji – na przykład pierwszej części dłuższego zdania – trudno jest przewidzieć, jak mówca będzie kontynuował wypowiedź. Większość narzędzi pierwszej generacji podchodziła do tego problemu na dwa sposoby: albo czekając, aż dostępne będzie całe zdanie, co prowadziło do dużych opóźnień w tłumaczeniu, albo stale aktualizując wynik tłumaczenia, co powodowało nieprzyjemne „migotanie” doświadczenia użytkownika (więcej na ten temat przeczytasz tutaj).

W przypadku DeepL Voice mamy ambicję zapewnić płynne doświadczenie użytkownika przy zachowaniu wysokiej jakości tłumaczeń i niskich opóźnień. Dzięki naszemu wieloletniemu doświadczeniu w badaniach nad neuronowym tłumaczeniem maszynowym, jesteśmy w stanie przesuwać granice tłumaczenia w czasie rzeczywistym i dostarczać wyjątkowo płynny i stabilny strumień przetłumaczonego tekstu.

Zobacz różnicę między nagraniami ekranowymi DeepL Voice for Meetings (po prawej stronie) i tłumaczeniami Microsoft Teams (po lewej stronie).

Dzięki opracowaniu tego stabilnego strumienia tekstowego pokonaliśmy główną przeszkodę stojącą na drodze do osiągnięcia prawdziwego celu: łatwych w prowadzeniu rozmów głosowych o wysokiej jakości. Naturalnie brzmiący dźwięk po prostu nie jest możliwy, gdy jest wygenerowany na podstawie niestabilnego, migoczącego skryptu.

Ostatni krok: Głos w czasie rzeczywistym

Mając ten klucz na miejscu, z radością ogłaszamy, że projekt DeepL Voice-to-Voice jest obecnie aktywnie rozwijany w DeepL AI Labs. Wstępne wyniki są niezwykle obiecujące. 

Zgodnie z naszą misją budowania przyszłości cykli pracy AI dla firm działających na całym świecie. Teraz możesz korzystać z wysokiej jakości tłumaczeń głosowych w czasie rzeczywistym dla wielu języków!

Oto wstępna zapowiedź modeli funkcji zamiany tekstu na mowę (TTS) z obsługą klonowania głosu, nad którymi obecnie pracuje zespół badawczy. Możesz sam ocenić jakość.

PL
Próbka głosu
PL
TTS z klonowaniem głosu
DE
Próbka głosu
DE – TTS z klonowaniem głosu za pomocą DeepL Voice
ES – Próbka głosu
ES – TTS z klonowaniem głosu
ZH – Próbka tekstu
ZH – TTS z klonowaniem głosu za pomocą DeepL Voice

Jednak dobry model TTS to tylko podstawa doskonałego doświadczenia głosowego. Stworzenie produktu, który działa w czasie rzeczywistym, wymaga znacznie więcej: strategii fragmentarycznego wnioskowania, płynnego łączenia wygenerowanego dźwięku i kontroli prędkości wyjściowej w celu osiągnięcia minimalnego opóźnienia.

Jakość, którą właśnie usłyszałeś, to nasz nowy standard. Technologia ta stanowi dla nas priorytet i będziemy udostępniać więcej zapowiedzi oraz szczegółowych informacji w miarę zbliżania się ważnych wydarzeń w dalszej części roku. Przyszłość komunikacji opartej na AI jest już prawie tuż za rogiem!

Udostępnij

Bądźmy w kontakcie

Zobacz zapowiedzi naszych najnowszych innowacji w dziedzinie AI.