DeepL AI Labs
In diesem Sommer stellte sich eines unserer Teams einer Herausforderung, die globale Unternehmen seit Jahren beschäftigt: die Übersetzung formatierter Dokumente unter Beibehaltung des exakten Layouts und Stils des Originals.
Denken Sie an die Vielzahl von Dokumenten, mit denen Sie täglich zu tun haben: Unternehmensbroschüren, behördliche Richtlinien, Verträge, Forschungsberichte und vieles mehr. Auf den ersten Blick klingt das vielleicht nach einer einfachen Aufgabe. Schließlich sollten die leistungsstarken KI‑Plattformen von heute, die Codes schreiben, Geschäftsstrategien entwickeln oder komplexe wissenschaftliche Probleme lösen können, in der Lage sein, ein juristisches Dokument problemlos zu übersetzen und so zu reproduzieren, dass es genau wie das Original aussieht.
Die Komplexität dieser Aufgabe wird jedoch viel deutlicher, wenn man sich einige Beispiele ansieht:
Bislang wurden Dokumente übersetzt, indem der Text aus dem XML‑Code einer DOCX‑Datei extrahiert, unter Beibehaltung der Markups übersetzt und anschließend wieder eingefügt wurde. ‑Bei DOCX-Dateien funktioniert dieser Ansatz recht gut, da die strukturierten Daten Textänderungen zulassen, während das ursprüngliche Layout erhalten bleibt.
Bei anderen Dokumenten, wie gescannten PDF‑Dateien, ist dieser Prozess jedoch weniger zuverlässig. Das Konvertieren und Extrahieren von Text, dessen anschließende Übersetzung und das erneute Einfügen führen oft zu verzerrten Bildern, schlecht ausgerichtetem Text und falschen Schriftarten.
Nach einigen Monaten intensiver Überlegungen, wie dieses Problem gelöst werden könnte, entwickelte das DeepL-Team einen völlig neuen Ansatz, den wir als „Rekonstruktion“ bezeichnen.
Anstatt lediglich die bestehende Dokumentstruktur zu bewahren, beobachtet diese neue Methode das Layout, sammelt detaillierte Informationen darüber, speichert diese Daten und verwendet sie dann zusammen mit dem extrahierten Text, um das Dokument vollständig zu rekonstruieren – wodurch das alte Dokument effektiv verworfen wird.
Dieser Paradigmenwechsel stellt nicht nur einen bedeutenden technischen Fortschritt dar, sondern schafft auch neue Möglichkeiten für die Verarbeitung und Bereitstellung von Dokumenten.
Der erste Schritt besteht darin, jede Seite in ein Bild umzuwandeln. Diese Bilder werden dann mit Hilfe der fortschrittlichen Vision Language Models (VLM)-Technologie analysiert. Im Gegensatz zu herkömmlichen Methoden der optischen Zeichenerkennung (OCR) identifizieren VLMs nicht nur einzelne Zeichen isoliert, sondern verstehen den größeren Kontext des Dokuments, ähnlich wie Menschen beim Lesen. Wenn Sie in einem verblassten Vertrag auf ein verschmiertes Wort oder in einer gescannten Tabelle auf einen teilweise lesbaren Eintrag stoßen, können Sie oft anhand des umgebenden Textes und der Struktur des Dokuments herausfinden, was dort steht. VLMs funktionieren ähnlich und nutzen kontextuelle Hinweise, um eine höhere Genauigkeit bei der Textextraktion zu erzielen, insbesondere wenn die Bildqualität schlecht oder das Dokumentlayout komplex ist.
Dieses Kontextverständnis bringt konkrete Vorteile für Unternehmen mit sich: weniger manuelle Korrekturen nach der Verarbeitung, zuverlässigere Datenextraktion aus komplexen Dokumenten wie alten Verträgen oder Scans mit niedriger Auflösung und eine deutlich bessere Leistung bei strukturierten Daten wie Tabellen und Formularen, bei denen herkömmliche OCR‑Verfahren oft Probleme mit einzelnen Zellen haben. Nur wenn der Inhalt sicher verstanden wird, kann seine Übersetzung zu zuverlässigen Ergebnissen führen.
Dieser Ansatz erfasst nicht nur den Text, sondern auch Informationen wie die Begrenzungsrahmen für den Text, Details zu Hintergrundbildern und andere Layout-Heuristiken. Sobald der Text übersetzt ist, werden all diese umfangreichen Daten – die Übersetzung in Verbindung mit den Informationen über das Layout des Dokuments – in die leistungsstarke Rendering-Engine eingespeist.
Eine der größten Herausforderungen, die wir bewältigen mussten, war die Entwicklung einer neuen Rendering‑Engine. Dokumente gibt es in einer Vielzahl von Formaten, von einfachem Fließtext auf weißem Hintergrund, wie z. B. Briefen, über komplexe Tabellen in Finanzberichten bis hin zu Abbildungen und Diagrammen mit Beschriftungen in Forschungsarbeiten und komplexen grafischen Layouts in bunten Broschüren.
Nachdem der Text übersetzt wurde, müssen all diese verschiedenen Komponenten in der neuen Sprache so originalgetreu wie möglich rekonstruiert werden. DeepL verwendet eine Reihe von Technologien, um die zuvor extrahierten Informationen wieder zusammenzusetzen und das Layout an den übersetzten Text anzupassen. Ein wichtiger Aspekt dabei ist die Anpassung der Schriftgrößen an die unterschiedliche Länge des Originaltextes und des übersetzten Textes. Im letzten Schritt stellt die Engine alle Seiten zu einer neuen PDF‑Datei zusammen und liefert diese sofort an den Nutzer.
Dieser „Rekonstruktionsansatz” ist grundlegend für die Erweiterung von DeepL auf multimodale Inhalte – also Inhalte in verschiedenen Formaten, darunter reiner Text, Audio, Bilder, Videos und interaktive Elemente –, wodurch die Übersetzung eines breiteren Inhaltsspektrums über reine Textdateien hinaus ermöglicht wird. Durch die Konvertierung von Dokumenten in Bilder und die anschließende Verwendung von VLMs zur Extraktion von Inhalten, die über die einfache Texterkennung hinausgehen, einschließlich umfassender Layout-Informationen, ermöglicht DeepL nun genaue, qualitativ hochwertige Übersetzungen einer viel größeren Bandbreite an gescannten Dokumenten und Bildern – Formate, deren Verarbeitung bisher eine Herausforderung darstellte – unter Beibehaltung der visuellen Integrität. Die Modularität dieser Schritte eröffnet auch spannende Möglichkeiten für die Erstellung von Dokumenten aus anderen Quellen.
Das VLM‑Projekt stellt einen entscheidenden Fortschritt für die Dokumentenübersetzungsfähigkeiten von DeepL dar. Durch den Ansatz der „Rekonstruktion“ und den Einsatz modernster VLM‑ und OCR‑Technologien ermöglichen wir nicht nur die genaue Übersetzung visuell komplexer Dokumente – wie Bilder und gescannte PDFs –, sondern legen auch den Grundstein für äußerst anpassungsfähige, workflowgesteuerte Lösungen. Diese Initiative unterstreicht die Entschlossenheit von DeepL, die Grenzen der KI‑Sprachtechnologie zu erweitern, unseren Nutzern Zugang zu den vielseitigsten und leistungsfähigsten Übersetzungstools zu bieten und den Weg für neue Anwendungen und eine tiefere Integration in verschiedene professionelle Workflows zu ebnen.