DeepL AI Labs

Realtidsöversättning från röst till röst: Hur DeepL formar framtiden för global kommunikation

Komma igång: Rätt grund

Vår resa började med en grundläggande utmaning: att skapa en Tal-till-text-motor som uppfyller DeepL:s standard för precision. Vi gick bortom befintliga arkitekturer och utvecklade egna modeller genom en fokuserad process med avancerad utbildning och högkvalitativ dataraffinering. Denna strategi har gett en tydlig prestationsfördel.

Våra interna jämförelser visar att våra modeller uppnår en marknadsledande Word Error Rate (WER) och levererar mer exakta transkriberingar än etablerade konkurrenter. I stället för offentliga riktmärken utvärderar vi transkriberingskvaliteten med hjälp av ett noggrant sammanställt, egenutvecklat testset som återspeglar de affärsscenarier som våra kunder bryr sig om.

["Tal-till-text-noggrannhet (ordfelprocent) för modeller", jämförelse mellan DeepL Voice lägre WER och Amazon Transcript och Microsoft Azure AI Speech. Lägre är bättre.]

Det svåra: Eliminera fördröjning och flimmer

En bra transkribering är bara början. Att översätta en transkribering som utvecklas i realtid medför utmanande forskningsfrågor. När man översätter en mellanliggande transkribering – till exempel den första delen av en längre mening – är det svårt att veta hur talaren kommer att fortsätta. De flesta verktyg av första generationen har hanterat detta problem på ett av två sätt: antingen genom att vänta tills hela meningen är tillgänglig, vilket leder till långa översättningsfördröjningar, eller genom att ständigt uppdatera översättningsresultatet, vilket ger en obehaglig ”flimrande” användarupplevelse (läs mer om det här).

För DeepL Voice har vi ambitionen att erbjuda en smidig användarupplevelse samtidigt som vi upprätthåller hög översättningskvalitet och låg latens. Med vår långvariga forskningserfarenhet inom neurala maskinöversättningar har vi en unik position för att flytta gränserna för realtidsöversättningar och leverera en unik, smidig och stabil ström av översatt text.

Se skillnaden i dessa skärminspelningar av DeepL Voice for Meetings (till höger) och Microsoft Teams-översättningar (till vänster).

Genom att konstruera denna stabila textström löste vi det främsta hindret för det verkliga målet: smidiga, högkvalitativa röst-till-röst-samtal. Naturligt ljud är helt enkelt inte möjligt när det genereras från ett instabilt, flimrande skript.

Det sista steget: Röst i realtid

Med den nyckeln på plats är vi glada att kunna meddela att DeepL Voice-to-Voice-projektet nu är under aktiv utveckling inom DeepL AI Labs. De första resultaten är otroligt lovande. 

I linje med vår mission att bygga framtidens AI-arbetsprocesser för företag som är verksamma över hela världen. Nu är det möjligt att leverera högkvalitativa realtidsröstöversättningar från röst till röst för många språk!

Här är en rå teaser för text-till-tal-modellerna (TTS) med stöd för röstkloning som forskarteamet arbetar med just nu. Du kan själv bedöma kvaliteten.

SV
Röstprov
SV
TTS med röstkloning
DE
Voice
exempel
DE
TTS med röstkloning
ES
Voice
exempel
ES
TTS med röstkloning
ZH
Voice
exempel
ZH
TTS med röstkloning

En bra TTS-modell är dock bara grunden för en fantastisk Voice-till-Voice-upplevelse. Att bygga en produkt som fungerar i realtid kräver mycket mer: en strategi för chunked inference, sömlös kedjekoppling av genererat ljud och kontroll av utmatningshastigheten för att uppnå minimal latens.

Den kvalitet du just hörde är vår nya basnivå. Denna teknik är ett centralt fokus för oss, och vi kommer att dela med oss av fler teasers och djupdykningar när vi närmar oss större evenemang senare i år. Framtiden för AI-driven kommunikation är snart här!

Dela

Håll kontakten

Få en förhandsvisning av våra senaste AI-innovationer.