DeepL AI Labs
Цього літа одна з наших команд взялася за завдання, яке роками турбувало глобальні компанії: переклад форматованих документів із збереженням точного макету та стилю оригіналу.
Подумайте про широкий спектр документів, з якими ви стикаєтеся щодня: корпоративні брошури, урядові директиви, юридичні контракти, дослідницькі звіти тощо. На перший погляд, це може здатися простим рішенням. Адже сучасні потужні платформи ШІ, які можуть писати код, формувати бізнес-стратегії або вирішувати складні наукові питання, повинні бути здатні легко перекладати та відтворювати юридичні документи, щоб вони виглядали так само, як оригінали.
Але складність цього завдання стає набагато зрозумілішою, якщо розглянути кілька прикладів:
Історично переклад документів базувався на витягуванні тексту з XML у файлі Docx, його перекладі із збереженням розмітки, а потім повторному вставленні перекладеного тексту. Для файлів .docx цей підхід працює досить добре, оскільки структуровані дані дозволяють змінювати текст, залишаючи оригінальне оформлення без змін.
Але для інших документів, таких як PDF-файли, скановані, цей процес є менш надійним. Перетворення та вилучення тексту, а потім його переклад і повторне вставлення часто призводять до неідеальних зображень, неправильного вирівнювання тексту та невідповідності шрифтів.
Після кількох напружених місяців пошуку рішень цієї проблеми команда DeepL запропонувала принципово новий підхід, який ми назвали «реконструкцією».
Замість того, щоб просто зберігати існуючу структуру документа, цей новий метод аналізує його макет, збирає детальну інформацію про нього, зберігає ці дані, а потім використовує їх разом із вилученим текстом для повної реконструкції документа — фактично відкидаючистарий документ.
Ця зміна парадигми є не тільки значним технологічним проривом, але й створює нові можливості для обробки та доставки документів.
Перший крок для реалізації цього завдання — перетворити кожну сторінку на зображення. Потім ці зображення аналізуються за допомогою передової технології Vision Language Models (VLM). На відміну від традиційних методів оптичного розпізнавання символів (OCR), VLM не просто ідентифікують індивідуальні символи, а розуміють ширший контекст документа, подібно до того, як це роблять люди. Коли ви натрапляєте на замазане слово у вицвілому контракті або частково розбірливий запис у відсканованій таблиці, часто можна зрозуміти, що там написано, якщо розібрати сусідній текст і структуру документа. VLMs працюють аналогічно, використовуючи контекстні підказки для досягнення вищої точності вилучення тексту, особливо коли якість зображення низька або макет документа складний.
Таке контекстуальне розуміння перетворюється на конкретні переваги для бізнесу: менше ручних виправлень після обробки, більш надійне вилучення даних із складних документів, таких як застарілі контракти або скани з низькою роздільною здатністю, а також значно краща продуктивність при роботі зі структурованими даними, такими як таблиці та форми, де традиційне OCR часто не справляється з окремими комірками. Тільки коли контент надійно зрозумілий, його переклад може дати надійний результат.
Цей підхід не тільки фіксує текст, але й таку інформацію, як обмежувальні рамки для тексту, деталі про фонові зображення та інші евристичні дані про макет. Після перекладу тексту всі ці багаті дані – переклад у поєднанні з інформацією про те, як був оформлений документ – надходять до потужного механізму візуалізації.
Однією з найбільших проблем, яку нам довелося подолати, було створення нового рендерингового движка. Документи мають широкий спектр форматів, які слід враховувати: від простого тексту на білому тлі, такого як листи, до складних таблиць у фінансових звітах, до рисунків і діаграм з підписами в наукових роботах, а також до складних графічних макетів у кольорових брошурах.
Після перекладу тексту всі ці різні компоненти необхідно якомога точніше відтворити в новій мові. DeepL використовує набір технологій для повторного складання раніше витягнутої інформації та адаптації макета до перекладеного тексту. Важливим аспектом цього є регулювання розміру шрифту з урахуванням різної довжини оригінального та перекладеного текстів. На останньому етапі движок компілює всі сторінки в новий PDF-файл і миттєво доставляє його користувачеві.
Цей підхід «реконструкції» є основою для розширення DeepL у напрямку мультимодального контенту, що охоплює контент у різних форматах, включаючи звичайний текст, аудіо, зображення, відео та інтерактивні елементи, що дозволяє перекладати ширший спектр контенту, ніж суто текстові файли. Перетворюючи документи в зображення, а потім використовуючи VLM для вилучення контенту, що виходить за межі простого розпізнавання тексту, включаючи вичерпну інформацію про макет, DeepL тепер забезпечує точні та високоякісні переклади набагато ширшого спектру сканованих документів та зображень — форматів, які раніше було складно обробляти — зберігаючи при цьому візуальну цілісність. Модульність цих кроків також відкриває захоплюючі можливості для створення документів з інших джерел.
Проект VLM є важливим кроком у розвитку здатності DeepL до перекладу документів. Застосовуючи підхід «реконструкції» та використовуючи передові технології VLM та OCR, ми не тільки забезпечуємо точний переклад візуально складних документів, таких як зображення та відскановані PDF-файли, але й закладаємо основу для високо настроюваних рішень, орієнтованих на робочий процес. Ця ініціатива підкреслює прагнення DeepL розширювати межі мовного ШІ, забезпечуючи нашим користувачам доступ до найбільш універсальних і потужних інструментів перекладу, а також відкриваючи шлях для нових програм і більш глибокої інтеграції в різноманітні професійні робочі процеси.