DeepL AI Labs

Розблокування високоякісного перекладу для сканованих документів та контенту на основі зображень

Чому переклад документів такий складний?

Цього літа одна з наших команд взялася за завдання, яке роками турбувало глобальні компанії: переклад форматованих документів із збереженням точного макету та стилю оригіналу.

Подумайте про широкий спектр документів, з якими ви стикаєтеся щодня: корпоративні брошури, урядові директиви, юридичні контракти, дослідницькі звіти тощо. На перший погляд, це може здатися простим рішенням. Адже сучасні потужні платформи ШІ, які можуть писати код, формувати бізнес-стратегії або вирішувати складні наукові питання, повинні бути здатні легко перекладати та відтворювати юридичні документи, щоб вони виглядали так само, як оригінали.

Але складність цього завдання стає набагато зрозумілішою, якщо розглянути кілька прикладів:

Довжина слова: Уявіть, що ви перекладаєте корпоративну брошуру з англійської на японську. Різниця в довжині символів створює складні проблеми при обтіканні текстом зображень, розбитті сторінок і компонуванні стовпців.
Стилі тексту та розміри шрифтів: Форматовані документи часто містять широкий спектр макетів, стилів і розмірів – великі жирні заголовки, курсивні цитати, таблиці, символи тощо. Це не просто для зручності читання; це свідомий вибір дизайну, що відображає стиль бренду та задум оригінального документа.
Мультимодальний контент: Ще одним викликом є перекласти текст у зображеннях, таких як діаграми та ілюстрації, у широкому діапазоні стилів і форматів.
Відскановані документи: У випадку зі сканованими файлами все, включаючи текст, є по суті зображенням. Щоб ускладнити справу, скановані зображення рідко бувають ідеально вирівняні і часто містять відмінності в текстурі паперу та фоні. Це створює ще більші виклики для точності перекладу та ідеального макетування.

Поточний підхід не працює

Історично переклад документів базувався на витягуванні тексту з XML у файлі Docx, його перекладі із збереженням розмітки, а потім повторному вставленні перекладеного тексту. Для файлів .docx цей підхід працює досить добре, оскільки структуровані дані дозволяють змінювати текст, залишаючи оригінальне оформлення без змін.

Але для інших документів, таких як PDF-файли, скановані, цей процес є менш надійним. Перетворення та вилучення тексту, а потім його переклад і повторне вставлення часто призводять до неідеальних зображень, неправильного вирівнювання тексту та невідповідності шрифтів.

Прорив DeepL: Від перекладу до реконструкції

Після кількох напружених місяців пошуку рішень цієї проблеми команда DeepL запропонувала принципово новий підхід, який ми назвали «реконструкцією».

Замість того, щоб просто зберігати існуючу структуру документа, цей новий метод аналізує його макет, збирає детальну інформацію про нього, зберігає ці дані, а потім використовує їх разом із вилученим текстом для повної реконструкції документа — фактично відкидаючистарий документ.

Ця зміна парадигми є не тільки значним технологічним проривом, але й створює нові можливості для обробки та доставки документів.

Як працює реконструкція документів?

Перший крок для реалізації цього завдання — перетворити кожну сторінку на зображення. Потім ці зображення аналізуються за допомогою передової технології Vision Language Models (VLM). На відміну від традиційних методів оптичного розпізнавання символів (OCR), VLM не просто ідентифікують індивідуальні символи, а розуміють ширший контекст документа, подібно до того, як це роблять люди. Коли ви натрапляєте на замазане слово у вицвілому контракті або частково розбірливий запис у відсканованій таблиці, часто можна зрозуміти, що там написано, якщо розібрати сусідній текст і структуру документа. VLMs працюють аналогічно, використовуючи контекстні підказки для досягнення вищої точності вилучення тексту, особливо коли якість зображення низька або макет документа складний.

Таке контекстуальне розуміння перетворюється на конкретні переваги для бізнесу: менше ручних виправлень після обробки, більш надійне вилучення даних із складних документів, таких як застарілі контракти або скани з низькою роздільною здатністю, а також значно краща продуктивність при роботі зі структурованими даними, такими як таблиці та форми, де традиційне OCR часто не справляється з окремими комірками. Тільки коли контент надійно зрозумілий, його переклад може дати надійний результат.

Цей підхід не тільки фіксує текст, але й таку інформацію, як обмежувальні рамки для тексту, деталі про фонові зображення та інші евристичні дані про макет. Після перекладу тексту всі ці багаті дані – переклад у поєднанні з інформацією про те, як був оформлений документ – надходять до потужного механізму візуалізації.

Новий двигун для нового виду роботи

Однією з найбільших проблем, яку нам довелося подолати, було створення нового рендерингового движка. Документи мають широкий спектр форматів, які слід враховувати: від простого тексту на білому тлі, такого як листи, до складних таблиць у фінансових звітах, до рисунків і діаграм з підписами в наукових роботах, а також до складних графічних макетів у кольорових брошурах.

Після перекладу тексту всі ці різні компоненти необхідно якомога точніше відтворити в новій мові. DeepL використовує набір технологій для повторного складання раніше витягнутої інформації та адаптації макета до перекладеного тексту. Важливим аспектом цього є регулювання розміру шрифту з урахуванням різної довжини оригінального та перекладеного текстів. На останньому етапі движок компілює всі сторінки в новий PDF-файл і миттєво доставляє його користувачеві.

Розблокування мультимодального перекладу за допомогою ШІ

Цей підхід «реконструкції» є основою для розширення DeepL у напрямку мультимодального контенту, що охоплює контент у різних форматах, включаючи звичайний текст, аудіо, зображення, відео та інтерактивні елементи, що дозволяє перекладати ширший спектр контенту, ніж суто текстові файли. Перетворюючи документи в зображення, а потім використовуючи VLM для вилучення контенту, що виходить за межі простого розпізнавання тексту, включаючи вичерпну інформацію про макет, DeepL тепер забезпечує точні та високоякісні переклади набагато ширшого спектру сканованих документів та зображень — форматів, які раніше було складно обробляти — зберігаючи при цьому візуальну цілісність. Модульність цих кроків також відкриває захоплюючі можливості для створення документів з інших джерел.

Проект VLM є важливим кроком у розвитку здатності DeepL до перекладу документів. Застосовуючи підхід «реконструкції» та використовуючи передові технології VLM та OCR, ми не тільки забезпечуємо точний переклад візуально складних документів, таких як зображення та відскановані PDF-файли, але й закладаємо основу для високо настроюваних рішень, орієнтованих на робочий процес. Ця ініціатива підкреслює прагнення DeepL розширювати межі мовного ШІ, забезпечуючи нашим користувачам доступ до найбільш універсальних і потужних інструментів перекладу, а також відкриваючи шлях для нових програм і більш глибокої інтеграції в різноманітні професійні робочі процеси.

Поширити

Залишайтеся на зв’язку

Отримайте попередній перегляд наших останніх інновацій у галузі ШІ.