DeepL AI Labs
Этим летом одна из наших команд приняла вызов, который на протяжении многих лет беспокоил глобальные компании: перевод форматированных документов с сохранением точного макета и стиля оригинала.
Обратите внимание на широкий спектр документов, с которыми вы сталкиваетесь ежедневно: корпоративные брошюры, правительственные директивы, юридические договоры, исследовательские отчеты и многое другое. На первый взгляд это может показаться простым решением. Ведь современные мощные платформы ИИ, способные писать код, формировать бизнес-стратегии или решать сложные научные проблемы, должны быть в состоянии легко переводить и воспроизводить юридические документы, чтобы они выглядели точно так же, как оригинал.
Однако сложность этой задачи становится более очевидной, если рассмотреть несколько примеров:
Исторически перевод документов основывался на извлечении текста из XML в файле .docx, его переводе с сохранением разметки, а затем повторной вставке переведенного текста. Для файлов .docx этот подход работает достаточно эффективно, поскольку структурированные данные позволяют изменить текст, сохраняя при этом исходный макет.
Однако для других документов, таких как отсканированные файлы PDF, этот процесс менее надежен. Преобразование и извлечение текста, а затем его перевод и повторная вставка часто приводят к некачественным изображениям, неверному выравниванию текста и несоответствию шрифтов.
После нескольких интенсивных месяцев переосмысления способов решения этой проблемы команда DeepL предложила принципиально иной подход, который мы назвали «реконструкцией».
Вместо того, чтобы просто сохранять существующую структуру документа, этот новый метод анализирует макет, собирает подробную информацию о нем, сохраняет эти данные, а затем использует их вместе с извлеченным текстом для полной реконструкции документа, фактически отбрасывая старый документ.
Этот сдвиг парадигмы представляет собой не только значительный технологический прорыв, но и создает новые возможности для обработки и доставки документов.
Первым шагом для реализации этой задачи является преобразование каждой страницы в изображение. Затем эти изображения анализируются с помощью передовой технологии Vision Language Models (VLM). В отличие от традиционных методов оптического распознавания символов (OCR), VLM не просто идентифицируют отдельные символы в изоляции — они понимают более широкий контекст документа, подобно тому, как это делают люди. Когда вы сталкиваетесь с размытым словом в выцветшем договоре или частично разборчивой записью в отсканированной таблице, часто можно понять, что там написано, если проанализировать окружающий текст и структуру документа. VLMs работают аналогичным образом, используя контекстные подсказки для достижения более высокой точности извлечения текста, особенно когда качество изображения низкое или макет документа сложный.
Это контекстуальное понимание приносит конкретные преимущества для бизнеса: меньше ручных исправлений после обработки, более надежное извлечение данных из сложных документов, таких как старые договоры или сканы с низким разрешением, а также значительно лучшая производительность при работе со структурированными данными, такими как таблицы и формы, где традиционное OCR часто испытывает трудности с отдельными ячейками. Только при надежном понимании контента его перевод может обеспечить достоверный результат.
Этот подход позволяет не только захватить текст, но и такую информацию, как ограничительные рамки для текста, сведения о фоновых изображениях и другие эвристические данные о макете. После перевода текста все эти разнообразные данные — перевод в сочетании с информацией о том, как был оформлен документ — поступают в мощный движок рендеринга.
Одной из самых значительных задач, которую нам предстояло решить, было создание нового движка рендеринга. Документы могут иметь различные форматы: от простого текста на белом фоне, например писем, до сложных таблиц в финансовых отчетах, рисунков и диаграмм с подписями в научных работах и сложных графических макетов в красочных брошюрах.
После перевода текста все эти различные компоненты необходимо воссоздать на новом языке с максимальной точностью. DeepL использует набор технологий для повторной сборки ранее извлеченной информации и адаптации макета к переведенному тексту. Важным аспектом является корректировка размера шрифта с учетом различной длины исходного и переведенного текста. На последнем этапе движок компилирует все страницы в новый PDF-файл и мгновенно доставляет его пользователю.
Этот подход «реконструкции» является основополагающим для расширения DeepL в области мультимодального контента, охватывающего контент в различных форматах, включая простой текст, аудио, изображения, видео и интерактивные элементы, что позволяет переводить более широкий спектр контента, выходящий за рамки чисто текстовых файлов. Преобразуя документы в изображения, а затем используя VLMs для извлечения контента, выходящего за рамки простого распознавания текста, включая исчерпывающую информацию о макете, DeepL теперь обеспечивает точные и высококачественные переводы гораздо более широкого спектра отсканированных документов и изображений — форматов, которые ранее было сложно обрабатывать — при сохранении визуальной целостности. Модульность этих шагов также открывает интересные возможности для создания документов из других источников.
Проект VLM представляет собой значительный прорыв в возможностях DeepL по переводу документов. Применяя подход «реконструкции» и используя передовые технологии VLM и OCR, мы не только обеспечиваем точный перевод визуально сложных документов, таких как изображения и отсканированные PDF-файлы, но и создаем основу для высоко настраиваемых решений, ориентированных на рабочий процесс. Эта инициатива подчеркивает стремление DeepL расширять границы языкового ИИ, обеспечивая нашим пользователям доступ к самым универсальным и мощным инструментам перевода, а также открывая путь для новых приложений и более глубокой интеграции в различные профессиональные рабочие процессы.