DeepL AI Labs
Unser Weg zur Echtzeit-Sprachübersetzung begann mit einer grundlegenden Herausforderung: der Entwicklung einer Speech‑to-Text-Engine, die den Qualitätsstandards von DeepL entspricht. Mit Hilfe fortschrittlicher Trainingsmethoden und hochwertiger Datenaufbereitung haben wir bestehende Architekturen weiterentwickelt und eigene Modelle geschaffen. Dieser fokussierte Ansatz hat zu einem klaren Leistungsvorteil geführt.
Unsere internen Benchmarks zeigen, dass unsere Modelle eine marktführende Wortfehlerrate (Word Error Rate, WER) erzielen und genauere Transkriptionen liefern als bestehende Konkurrenzprodukte. Anstelle von öffentlichen Benchmarks bewerten wir die Transkriptionsqualität anhand eines sorgfältig zusammengestellten proprietären Testsatzes, der die für unsere Kunden relevanten Anwendungsfälle widerspiegelt.
[„Speech‑to-Text-Genauigkeit (Wortfehlerrate) von Modellen“, Vergleich der niedrigeren WER von DeepL Voice mit Amazon Transcript und Microsoft Azure AI Speech. Je niedriger, desto besser.]
Eine gute Transkription ist nur der Anfang. Die Übersetzung einer sich in Echtzeit entwickelnden Transkription wirft schwierige Forschungsfragen auf. Bei der Übersetzung einer vorläufigen Transkription – beispielsweise dem ersten Teil eines längeren Satzes – ist es schwierig zu wissen, wie der Sprecher fortfahren wird. Die meisten Tools der ersten Generation haben dieses Problem auf zwei Arten gelöst: entweder indem sie gewartet haben, bis der gesamte Satz verfügbar war, was zu einer hohen Übersetzungslatenz führte, oder indem sie die Übersetzungsergebnisse ständig aktualisiert haben, was zu einem unangenehmen „Flackern” für den Nutzer führte (mehr dazu hier).
Für DeepL Voice haben wir uns zum Ziel gesetzt, eine reibungslose Benutzererfahrung zu bieten und gleichzeitig eine hohe Übersetzungsqualität und geringe Latenz zu gewährleisten. Dank unserer langjährigen Forschungserfahrung im Bereich der neuronalen maschinellen Übersetzung sind wir in der Lage, neue Maßstäbe in der Echtzeitübersetzung zu setzen und einen besonders flüssigen und stabilen Stream übersetzter Texte zu liefern.
In den nebeneinander angeordneten Bildschirmaufnahmen von DeepL Voice for Meetings (auf der rechten Seite) und Microsoft Teams-Übersetzungen (auf der linken Seite) sehen Sie den Unterschied:
Durch die Entwicklung dieses stabilen Textstroms haben wir das größte Hindernis für das eigentliche Ziel beseitigt: mühelose, hochwertige Voice-to-Voice-Gespräche. Eine natürlich klingende Audioausgabe ist einfach nicht möglich, wenn sie aus einem instabilen, flackernden Skript generiert wird.
Nach der Umsetzung dieses wichtigen Schritts freuen wir uns, bekannt geben zu können, dass das Voice‑to-Voice-Projekt von DeepL nun aktiv in unseren AI Labs entwickelt wird. Die ersten Ergebnisse sind äußerst vielversprechend.
Ganz im Sinne unserer Mission, die Zukunft der KI‑Workflows für weltweit tätige Unternehmen zu gestalten. Hochwertige Echtzeit-Sprachübersetzungen zwischen zahlreichen Sprachen sind nun in greifbarer Nähe!
Hier ist ein erster Teaser für die Text‑to-Speech-Modelle (TTS) mit Unterstützung für Voice Cloning, an denen das Forschungsteam derzeit arbeitet. Überzeugen Sie sich selbst von der Qualität:
Ein gutes TTS‑Modell ist jedoch nur die Grundlage für ein optimales Voice-to-Voice-Erlebnis. Die Entwicklung eines Produkts, das in Echtzeit funktioniert, erfordert viel mehr: eine Strategie für Chunked Inference, die nahtlose Verkettung von generiertem Audio und die Steuerung der Ausgabegeschwindigkeit, um eine minimale Latenz zu erreichen.
Die Qualität, die Sie gerade gehört haben, ist unsere neue Basis. Diese Technologie steht für uns im Mittelpunkt, und wir werden im Laufe des Jahres im Rahmen von Veranstaltungen weitere Teaser und Einblicke veröffentlichen. Die Zukunft der KI‑gestützten Kommunikation steht kurz bevor!