DeepL AI Labs

Hochwertige Übersetzungen für gescannte Dokumente und bildbasierte Inhalte

Warum ist die Übersetzung von Dokumenten so schwierig? 

In diesem Sommer stellte sich eines unserer Teams einer Herausforderung, die globale Unternehmen seit Jahren beschäftigt: die Übersetzung formatierter Dokumente unter Beibehaltung des exakten Layouts und Stils des Originals.   

Denken Sie an die Vielzahl von Dokumenten, mit denen Sie täglich zu tun haben: Unternehmensbroschüren, behördliche Richtlinien, Verträge, Forschungsberichte und vieles mehr. Auf den ersten Blick klingt das vielleicht nach einer einfachen Aufgabe. Schließlich sollten die leistungsstarken KI‑Plattformen von heute, die Codes schreiben, Geschäftsstrategien entwickeln oder komplexe wissenschaftliche Probleme lösen können, in der Lage sein, ein juristisches Dokument problemlos zu übersetzen und so zu reproduzieren, dass es genau wie das Original aussieht.

Die Komplexität dieser Aufgabe wird jedoch viel deutlicher, wenn man sich einige Beispiele ansieht:

  • Wortlänge: Stellen Sie sich vor, Sie übersetzen eine Unternehmensbroschüre vom Englischen ins Japanische. Die unterschiedliche Zeichenlänge führt zu komplexen Herausforderungen beim Textumbruch um Bilder, bei Seitenumbrüchen und bei Tabellenlayouts.
  • Textstile und Schriftgrößen: Formatierte Dokumente enthalten oft eine Vielzahl von Layouts, Stilen und Größen – große fettgedruckte Überschriften, kursiv gedruckte Zitate, Tabellen, Symbole und vieles mehr. Diese dienen nicht nur der Lesbarkeit, sondern sind bewusste Designentscheidungen, die den Stil der Marke und den Zweck des Originaldokuments widerspiegeln.
  • Multimodale Inhalte: Eine weitere Herausforderung ist die Übersetzung von Text innerhalb von Bildern – wie Diagrammen und Illustrationen – in einer Vielzahl von Stilen und Formaten.
  • Gescannte Dokumente: Bei gescannten Dateien ist im Grunde alles – einschließlich des Textes – ein Bild. Erschwerend kommt hinzu, dass gescannte Bilder selten perfekt ausgerichtet sind und oft Abweichungen in der Papierstruktur und im Hintergrund aufweisen. Das macht die Übersetzung und das pixelgenaue Layout noch schwieriger.

Der derzeitige Ansatz hat sich nicht bewährt

Bislang wurden Dokumente übersetzt, indem der Text aus dem XML‑Code einer DOCX‑Datei extrahiert, unter Beibehaltung der Markups übersetzt und anschließend wieder eingefügt wurde. ‑Bei DOCX-Dateien funktioniert dieser Ansatz recht gut, da die strukturierten Daten Textänderungen zulassen, während das ursprüngliche Layout erhalten bleibt. 

Bei anderen Dokumenten, wie gescannten PDF‑Dateien, ist dieser Prozess jedoch weniger zuverlässig. Das Konvertieren und Extrahieren von Text, dessen anschließende Übersetzung und das erneute Einfügen führen oft zu verzerrten Bildern, schlecht ausgerichtetem Text und falschen Schriftarten.

Der Durchbruch von DeepL: von der Übersetzung zur Rekonstruktion

Nach einigen Monaten intensiver Überlegungen, wie dieses Problem gelöst werden könnte, entwickelte das DeepL-Team einen völlig neuen Ansatz, den wir als „Rekonstruktion“ bezeichnen. 

Anstatt lediglich die bestehende Dokumentstruktur zu bewahren, beobachtet diese neue Methode das Layout, sammelt detaillierte Informationen darüber, speichert diese Daten und verwendet sie dann zusammen mit dem extrahierten Text, um das Dokument vollständig zu rekonstruieren – wodurch das alte Dokument effektiv verworfen wird.

Dieser Paradigmenwechsel stellt nicht nur einen bedeutenden technischen Fortschritt dar, sondern schafft auch neue Möglichkeiten für die Verarbeitung und Bereitstellung von Dokumenten.

Wie funktioniert die Dokumentrekonstruktion?   

Der erste Schritt besteht darin, jede Seite in ein Bild umzuwandeln. Diese Bilder werden dann mit Hilfe der fortschrittlichen Vision Language Models (VLM)-Technologie analysiert. Im Gegensatz zu herkömmlichen Methoden der optischen Zeichenerkennung (OCR) identifizieren VLMs nicht nur einzelne Zeichen isoliert, sondern verstehen den größeren Kontext des Dokuments, ähnlich wie Menschen beim Lesen. Wenn Sie in einem verblassten Vertrag auf ein verschmiertes Wort oder in einer gescannten Tabelle auf einen teilweise lesbaren Eintrag stoßen, können Sie oft anhand des umgebenden Textes und der Struktur des Dokuments herausfinden, was dort steht. VLMs funktionieren ähnlich und nutzen kontextuelle Hinweise, um eine höhere Genauigkeit bei der Textextraktion zu erzielen, insbesondere wenn die Bildqualität schlecht oder das Dokumentlayout komplex ist.

Dieses Kontextverständnis bringt konkrete Vorteile für Unternehmen mit sich: weniger manuelle Korrekturen nach der Verarbeitung, zuverlässigere Datenextraktion aus komplexen Dokumenten wie alten Verträgen oder Scans mit niedriger Auflösung und eine deutlich bessere Leistung bei strukturierten Daten wie Tabellen und Formularen, bei denen herkömmliche OCR‑Verfahren oft Probleme mit einzelnen Zellen haben. Nur wenn der Inhalt sicher verstanden wird, kann seine Übersetzung zu zuverlässigen Ergebnissen führen.

Dieser Ansatz erfasst nicht nur den Text, sondern auch Informationen wie die Begrenzungsrahmen für den Text, Details zu Hintergrundbildern und andere Layout-Heuristiken. Sobald der Text übersetzt ist, werden all diese umfangreichen Daten – die Übersetzung in Verbindung mit den Informationen über das Layout des Dokuments – in die leistungsstarke Rendering-Engine eingespeist.  

Eine neue Engine für eine neue Art von Aufgabe  

Eine der größten Herausforderungen, die wir bewältigen mussten, war die Entwicklung einer neuen Rendering‑Engine. Dokumente gibt es in einer Vielzahl von Formaten, von einfachem Fließtext auf weißem Hintergrund, wie z. B. Briefen, über komplexe Tabellen in Finanzberichten bis hin zu Abbildungen und Diagrammen mit Beschriftungen in Forschungsarbeiten und komplexen grafischen Layouts in bunten Broschüren. 

Nachdem der Text übersetzt wurde, müssen all diese verschiedenen Komponenten in der neuen Sprache so originalgetreu wie möglich rekonstruiert werden. DeepL verwendet eine Reihe von Technologien, um die zuvor extrahierten Informationen wieder zusammenzusetzen und das Layout an den übersetzten Text anzupassen. Ein wichtiger Aspekt dabei ist die Anpassung der Schriftgrößen an die unterschiedliche Länge des Originaltextes und des übersetzten Textes. Im letzten Schritt stellt die Engine alle Seiten zu einer neuen PDF‑Datei zusammen und liefert diese sofort an den Nutzer.

Multimodale Übersetzung mit KI

Dieser „Rekonstruktionsansatz” ist grundlegend für die Erweiterung von DeepL auf multimodale Inhalte – also Inhalte in verschiedenen Formaten, darunter reiner Text, Audio, Bilder, Videos und interaktive Elemente –, wodurch die Übersetzung eines breiteren Inhaltsspektrums über reine Textdateien hinaus ermöglicht wird. Durch die Konvertierung von Dokumenten in Bilder und die anschließende Verwendung von VLMs zur Extraktion von Inhalten, die über die einfache Texterkennung hinausgehen, einschließlich umfassender Layout-Informationen, ermöglicht DeepL nun genaue, qualitativ hochwertige Übersetzungen einer viel größeren Bandbreite an gescannten Dokumenten und Bildern – Formate, deren Verarbeitung bisher eine Herausforderung darstellte – unter Beibehaltung der visuellen Integrität. Die Modularität dieser Schritte eröffnet auch spannende Möglichkeiten für die Erstellung von Dokumenten aus anderen Quellen.

Das VLM‑Projekt stellt einen entscheidenden Fortschritt für die Dokumentenübersetzungsfähigkeiten von DeepL dar. Durch den Ansatz der „Rekonstruktion“ und den Einsatz modernster VLM‑ und OCR‑Technologien ermöglichen wir nicht nur die genaue Übersetzung visuell komplexer Dokumente – wie Bilder und gescannte PDFs –, sondern legen auch den Grundstein für äußerst anpassungsfähige, workflowgesteuerte Lösungen. Diese Initiative unterstreicht die Entschlossenheit von DeepL, die Grenzen der KI‑Sprachtechnologie zu erweitern, unseren Nutzern Zugang zu den vielseitigsten und leistungsfähigsten Übersetzungstools zu bieten und den Weg für neue Anwendungen und eine tiefere Integration in verschiedene professionelle Workflows zu ebnen.

Teilen

Immer auf dem neuesten Stand

Erhalten Sie einen ersten Einblick in unsere neuesten KI‑Innovationen.