DeepL AI Labs
Onze reis begon met een fundamentele uitdaging: het ontwikkelen van een spraak-naar-tekst-engine die voldoet aan de DeepL-norm voor nauwkeurigheid. We zijn verder gegaan dan bestaande architecturen en hebben eigen modellen ontwikkeld door middel van een gericht proces van geavanceerde training en hoogwaardige gegevensverfijning. Deze aanpak heeft een duidelijk prestatievoordeel opgeleverd.
Onze interne benchmarks tonen aan dat onze modellen een toonaangevende Word Error Rate (WER) behalen en nauwkeurigere transcripties leveren dan gevestigde concurrenten. In plaats van openbare benchmarks evalueren wij de kwaliteit van de transcriptie aan de hand van een zorgvuldig samengestelde eigen testset die de zakelijke use-cases weerspiegelt die voor onze klanten van belang zijn.
["Nauwkeurigheid van spraak-naar-tekst (woordfoutpercentage) van modellen", waarbij het lagere WER van DeepL Voice wordt vergeleken met Amazon Transcript en Microsoft Azure AI Speech. Lager is beter.]
Een uitstekende transcriptie is slechts het begin. Het in realtime vertalen van een zich ontwikkelende transcriptie brengt uitdagende onderzoeksvragen met zich mee. Bij het vertalen van een tussentijdse transcriptie – bijvoorbeeld het eerste deel van een langere zin – is het lastig om te voorspellen hoe de spreker verder zal gaan. De meeste tools van de eerste generatie hebben dit probleem op twee manieren aangepakt: ofwel door te wachten tot de volledige zin beschikbaar is, wat leidt tot een hoge vertalingstijd, ofwel door de vertaaloutput voortdurend bij te werken, wat een onaangename "flikkerende" gebruikerservaring oplevert (lees hier meer over hier).
Voor DeepL Voice streven wij ernaar een soepele gebruikerservaring te bieden met behoud van een hoge vertaalkwaliteit en lage latentie. Met onze jarenlange onderzoekservaring op het gebied van neurale automatische vertaling bevinden wij ons in een unieke positie om de grenzen van realtime vertaling te verleggen en een uitzonderlijk vloeiende en stabiele stroom van vertaalde tekst te leveren.
Bekijk het verschil in deze naast elkaar geplaatste schermopnames van DeepL Voice for Meetings (aan de rechterkant) en Microsoft Teams-vertalingen (aan de linkerkant).
Door deze stabiele tekststroom te ontwikkelen, hebben we de belangrijkste hindernis voor het uiteindelijke doel overwonnen: moeiteloze, hoogwaardige spraak-naar-spraakgesprekken. Een natuurlijk klinkende audio-uitvoer is eenvoudigweg niet mogelijk wanneer deze wordt genererd vanuit een onstabiel, flikkerend script.
Met deze sleutel op zijn plaats zijn wij verheugd om aan te kondigen dat het DeepL Voice-to-Voice-project nu actief in ontwikkeling is binnen DeepL AI Labs. De eerste resultaten zijn zeer veelbelovend.
In overeenstemming met onze missie om de toekomst van AI-workflows te ontwikkelen voor bedrijven die wereldwijd actief zijn. Het leveren van hoogwaardige realtime spraak-naar-spraakvertalingen voor vele talen is nu binnen handbereik.
Hier volgt een eerste voorproefje van de modellen voor tekst naar spraak (TTS) met ondersteuning voor stemklonen waar het onderzoeksteam momenteel aan werkt. U kunt zelf de kwaliteit beoordelen.
Een goed TTS-model vormt echter slechts de basis voor een uitstekende spraak-naar-spraak-ervaring. Het ontwikkelen van een product dat in realtime functioneert, vereist veel meer: een strategie voor chunked inference, naadloze koppeling van genererde audio en controle van de uitvoersnelheid om minimale latentie te bereiken.
De kwaliteit die u zojuist hebt gehoord, is onze nieuwe standaard. Deze technologie is voor ons een belangrijk aandachtspunt en we zullen meer teasers en diepgaande informatie delen naarmate we later dit jaar belangrijke evenementen naderen. De toekomst van AI-gestuurde communicatie is bijna hier.