DeepL AI Labs

Realtime spraak-naar-spraakvertaling: hoe DeepL de toekomst van internationale communicatie vormgeeft

Aan de slag: De juiste basis

Onze reis begon met een fundamentele uitdaging: het ontwikkelen van een spraak-naar-tekst-engine die voldoet aan de DeepL-norm voor nauwkeurigheid. We zijn verder gegaan dan bestaande architecturen en hebben eigen modellen ontwikkeld door middel van een gericht proces van geavanceerde training en hoogwaardige gegevensverfijning. Deze aanpak heeft een duidelijk prestatievoordeel opgeleverd.

Onze interne benchmarks tonen aan dat onze modellen een toonaangevende Word Error Rate (WER) behalen en nauwkeurigere transcripties leveren dan gevestigde concurrenten. In plaats van openbare benchmarks evalueren wij de kwaliteit van de transcriptie aan de hand van een zorgvuldig samengestelde eigen testset die de zakelijke use-cases weerspiegelt die voor onze klanten van belang zijn.

["Nauwkeurigheid van spraak-naar-tekst (woordfoutpercentage) van modellen", waarbij het lagere WER van DeepL Voice wordt vergeleken met Amazon Transcript en Microsoft Azure AI Speech. Lager is beter.]

Het moeilijke gedeelte: Het elimineren van vertraging en flikkering

Een uitstekende transcriptie is slechts het begin. Het in realtime vertalen van een zich ontwikkelende transcriptie brengt uitdagende onderzoeksvragen met zich mee. Bij het vertalen van een tussentijdse transcriptie – bijvoorbeeld het eerste deel van een langere zin – is het lastig om te voorspellen hoe de spreker verder zal gaan. De meeste tools van de eerste generatie hebben dit probleem op twee manieren aangepakt: ofwel door te wachten tot de volledige zin beschikbaar is, wat leidt tot een hoge vertalingstijd, ofwel door de vertaaloutput voortdurend bij te werken, wat een onaangename "flikkerende" gebruikerservaring oplevert (lees hier meer over hier).

Voor DeepL Voice streven wij ernaar een soepele gebruikerservaring te bieden met behoud van een hoge vertaalkwaliteit en lage latentie. Met onze jarenlange onderzoekservaring op het gebied van neurale automatische vertaling bevinden wij ons in een unieke positie om de grenzen van realtime vertaling te verleggen en een uitzonderlijk vloeiende en stabiele stroom van vertaalde tekst te leveren.

Bekijk het verschil in deze naast elkaar geplaatste schermopnames van DeepL Voice for Meetings (aan de rechterkant) en Microsoft Teams-vertalingen (aan de linkerkant).

Door deze stabiele tekststroom te ontwikkelen, hebben we de belangrijkste hindernis voor het uiteindelijke doel overwonnen: moeiteloze, hoogwaardige spraak-naar-spraakgesprekken. Een natuurlijk klinkende audio-uitvoer is eenvoudigweg niet mogelijk wanneer deze wordt genererd vanuit een onstabiel, flikkerend script.

De laatste stap: Realtime spraak

Met deze sleutel op zijn plaats zijn wij verheugd om aan te kondigen dat het DeepL Voice-to-Voice-project nu actief in ontwikkeling is binnen DeepL AI Labs. De eerste resultaten zijn zeer veelbelovend.

In overeenstemming met onze missie om de toekomst van AI-workflows te ontwikkelen voor bedrijven die wereldwijd actief zijn. Het leveren van hoogwaardige realtime spraak-naar-spraakvertalingen voor vele talen is nu binnen handbereik.

Hier volgt een eerste voorproefje van de modellen voor tekst naar spraak (TTS) met ondersteuning voor stemklonen waar het onderzoeksteam momenteel aan werkt. U kunt zelf de kwaliteit beoordelen.

Stemvoorbeeld