DeepL AI Labs

Odblokování vysoce kvalitního překladu pro naskenované dokumenty a obsah založený na obrázcích

Proč je překlad dokumentů tak obtížný? 

Letos v létě se jeden z našich týmů pustil do úkolu, který už léta trápí globální společnosti: překládat formátované dokumenty tak, aby zachovaly přesné rozvržení a styl originálu.   

Vzpomeňte si na širokou škálu dokumentů, se kterými se každý den setkáváte: firemní brožury, vládní směrnice, právní smlouvy, výzkumné zprávy a další. Na první pohled se to může zdát jako snadné řešení. Koneckonců, dnešní výkonné platformy umělé inteligence, které dokážou psát kód, vytvářet obchodní strategie nebo uvažovat o složitých vědeckých otázkách, by měly být schopny snadno přeložit a reprodukovat právní dokument tak, aby vypadal stejně jako originál.

Složitost tohoto úkolu však bude mnohem jasnější, když se podíváte na několik příkladů:

  • Délka slova: Představte si překlad firemní brožury z angličtiny do japonštiny. Rozdíly v délce znaků způsobují složité problémy při zalomení textu kolem obrázků, zalomení stránek a rozložení sloupců.
  • Styly textu a velikost písma: Formátované dokumenty často obsahují širokou škálu rozvržení, stylů a velikostí – velké tučné nadpisy, kurzívou psané citáty, tabulky, symboly a další. Nejde pouze o čitelnost; jedná se o záměrné designové rozhodnutí, které odráží styl značky a záměr původního dokumentu.
  • Multimodální obsah: Další výzvou je přeložit text v obrázcích, jako jsou diagramy a ilustrace, v široké škále stylů a formátů.
  • Skenované dokumenty: V případě souborů po skenování je vše – včetně textu – v podstatě obrázek. Aby to bylo ještě složitější, při skenování obrázků dochází k malým odchylkám v zarovnání a často se objevují rozdíly v textuře papíru a pozadí. To klade ještě větší nároky na přesnost překladu a dokonalé rozvržení.

Současný přístup nefunguje.

V minulosti se překlad dokumentů opíral o extrakci textu z XML v souboru Docx, jeho překlad se zachováním značek a následné opětovné vložení přeloženého textu. U souborů .docx tento přístup funguje velmi dobře, protože strukturovaná data umožňují změnit text, přičemž původní rozvržení zůstává nezměněno. 

U jiných dokumentů, jako jsou soubory PDF pořízené pomocí skenování, je tento proces méně spolehlivý. Převádění a extrahování textu a jeho následný překlad a opětovné vložení často vede k nedokonalým obrázkům, nesprávnému zarovnání textu a nesouladu fontů.

Průlom DeepL: Od překladu k rekonstrukci

Po několika intenzivních měsících přemýšlení o tom, jak tento problém vyřešit, přišel tým DeepL s fundamentálně odlišným přístupem, který jsme nazvali „rekonstrukce“. 

Tato nová metoda nezachovává pouze stávající strukturu dokumentu, ale sleduje jeho rozvržení, shromažďuje o něm podrobné informace, ukládá tato data a poté je používá společně s extrahovaným textem k úplné rekonstrukci dokumentu – čímž efektivně vyřazujestarý dokument. 

Tato změna paradigmatu představuje nejen významný technologický pokrok, ale také vytváří nové příležitosti pro zpracování a doručování dokumentů.

Jak funguje rekonstrukce dokumentů?   

Prvním krokem k tomu, aby to fungovalo, je převést každou stránku na obrázek. Tyto snímky jsou poté analyzovány pomocí pokročilé technologie Vision Language Models (VLM). Na rozdíl od tradičních metod optického rozpoznávání znaků (OCR) VLM nerozpoznávají jednotlivé znaky izolovaně, ale chápou širší kontext dokumentu, podobně jako lidé při čtení. Když narazíte na rozmazané slovo ve vybledlé smlouvě nebo částečně čitelný záznam ve skenované tabulce, často můžete zjistit, co je tam napsáno, pokud porozumíte okolnímu textu a struktuře dokumentu. VLMs fungují podobně, využívají kontextové vodítka k dosažení vyšší přesnosti při extrakci textu, zejména pokud je kvalita obrazu nízká nebo je rozložení dokumentu složité.

Toto kontextové porozumění se promítá do konkrétních výhod pro podniky: méně ručních oprav po zpracování, spolehlivější extrakce dat z náročných dokumentů, jako jsou staré smlouvy nebo skeny s nízkým rozlišením, a výrazně lepší výkon u strukturovaných dat, jako jsou tabulky a formuláře, kde tradiční OCR často má potíže s jednotlivými buňkami. Pouze pokud je obsah spolehlivě pochopen, může jeho překlad poskytnout spolehlivý výsledek.

Tento přístup zachycuje nejen text, ale také informace, jako jsou ohraničující rámečky textu, podrobnosti o obrázcích na pozadí a další heuristické informace o rozložení. Jakmile je text přeložen, všechna tato bohatá data – překlad spolu s informacemi o rozložení dokumentu – se zadávají do výkonného renderovacího modulu.  

Nový motor pro nový druh práce  

Jednou z největších výzev, kterou jsme museli překonat, bylo vytvoření nového renderovacího enginu. Dokumenty mají širokou škálu formátů, které je třeba zohlednit, od jednoduchého tekoucího textu na bílém pozadí, jako jsou dopisy, přes složité tabulky ve finančních zprávách, až po obrázky a grafy s popisky ve výzkumných pracích a složité grafické rozvržení v barevných brožurách. 

Po přeložení textu je třeba všechny tyto různé složky co nejvěrněji rekonstruovat v novém jazyku. DeepL využívá sadu technologií k opětovnému sestavení dříve extrahovaných informací a přizpůsobení rozvržení tak, aby vyhovovalo přeloženému textu. Důležitým aspektem je přizpůsobení velikosti písma tak, aby odpovídala rozdílné délce původního a přeloženého textu. V posledním kroku engine zkompiluje všechny stránky do nového souboru PDF a okamžitě jej doručí uživateli.

Odemykání multimodálního překladu pomocí AI

Tento „rekonstrukční“ přístup je základem expanze DeepL do multimodálního obsahu – pokrývajícího obsah v různých formátech, včetně prostého textu, zvuku, obrázků, videa a interaktivních prvků – což umožňuje překlad širšího spektra obsahu nad rámec čistě textových souborů. Díky převodu dokumentů na obrázky a následnému použití technologie VLM k extrakci obsahu nad rámec jednoduché detekce textu, včetně komplexních informací o rozložení, umožňuje DeepL nyní přesné a vysoce kvalitní překlady mnohem širší škály naskenovaných dokumentů a obrázků – formátů, jejichž zpracování bylo dříve náročné – při zachování vizuální integrity. Modularita těchto kroků také otevírá zajímavé možnosti pro vytváření dokumentů zcela z jiných zdrojů.

Projekt VLM představuje zásadní pokrok ve schopnostech DeepL v oblasti překladu dokumentů. Díky přístupu založenému na „rekonstrukci“ a využití nejmodernějších technologií VLM a OCR umožňujeme nejen přesný překlad vizuálně složitých dokumentů, jako jsou obrázky a naskenované soubory PDF, ale také vytváříme základ pro vysoce přizpůsobitelná řešení založená na pracovních postupech. Tato iniciativa podtrhuje závazek společnosti DeepL posouvat hranice Jazykové AI, zajistit našim uživatelům přístup k nejuniverzálnějším a nejvýkonnějším překladatelským nástrojům na trhu a připravit půdu pro nové Aplikace a hlubší integraci do různých profesionálních pracovních postupů.

Sdílet

Sledujte nás

Získejte náhled na naše nejnovější inovace v oblasti AI.