DeepL AI Labs

スキャン文書や画像コンテンツでも高精度な翻訳を実現

文書翻訳は、なぜこれほど難しいのか？

この夏、当社のチームは、長年にわたり多くのグローバル企業を悩ませてきた課題に向き合いました。それは、書式が設定された文書を翻訳しながら、元のレイアウトやスタイルを正確に保つことです。

日々私たちが目にしている文書を思い浮かべてみてください。企業パンフレット、政府のガイドライン、法的契約書、調査報告書など。その多くは、単なる文章の集合ではなく、レイアウトやデザインそのものが情報として機能しています。一見すると、この課題は比較的シンプルに思えるかもしれません。コードを書き、ビジネス戦略を描き、複雑な科学的問題を論理的に解決できる現代のAIであれば、法的文書を原文どおりに翻訳・再現することも可能なはずだ、と。

しかし、具体的なケースを見ていくと、この作業が想像以上に複雑であることが分かります。

文字数の違いたとえば、英語の企業パンフレットを日本語に翻訳する場合、言語ごとの文字数の差によって、画像周辺のテキストの回り込みや改ページ、段組みレイアウトなどに細かな調整が必要になります。
テキストのスタイルとフォントサイズ書式設定された文書には、様々なレイアウト、文体、サイズが含まれることがよくあります。例えば、大きな太字の見出し、斜体の引用文、表、記号などが挙げられます。書式が設定された文書には、太字の見出し、斜体の引用、表、記号など、多様なレイアウトやスタイル、フォントサイズが含まれています。これらは読みやすさのためだけでなく、ブランドの表現や原文の意図を反映した、意味のあるデザイン要素です。
マルチモーダルコンテンツ図表やイラストなど、画像内に含まれるテキストを、元の見た目や配置を保ったまま翻訳することも、大きな課題の一つです。
スキャン文書スキャンされた文書では、テキストを含むすべての要素が画像として扱われます。加えて、スキャン画像は必ずしも正確に整っておらず、紙質や背景のばらつきが生じることも少なくありません。その結果、翻訳の精度だけでなく、ピクセル単位でのレイアウト再現はさらに難しくなります。

従来のアプローチでは限界がありました

これまで文書翻訳では、Docxファイル内のXMLからテキストを抽出し、マークアップを保持したまま翻訳し、翻訳文を再挿入する方法が一般的でした。構造化データを活用できるため、Docx形式では一定の成果を上げてきました。

しかし、スキャンされたPDFなどの文書では、この手法は十分に機能しません。テキストの抽出、翻訳、再配置という一連の工程で、不完全な画像、テキストのずれ、フォントの不一致など、さまざまな問題が発生してしまいます。、スキャンしたPDFファイルなどの他の文書については、この処理の信頼性は低くなります。

DeepLの新しい発想：翻訳から「再構築」へ

こうした課題を根本から見直すため、数か月にわたる集中的な検討を重ねた結果、DeepLチームはまったく新しいアプローチにたどり着きました。私たちはこれを「再構築」と呼んでいます。

この手法では、既存の文書構造をそのまま引き継ぐのではなく、まず文書全体のレイアウトを観察し、詳細な情報を取得・保存します。そのうえで、抽出したテキストとこれらの情報を組み合わせ、文書を新たに作り直します。言い換えれば、元の文書をそのまま修正するのではなく、内容と構造を理解したうえで再生成するのです。

この発想の転換は、単なる技術的な進歩にとどまらず、文書の扱い方そのものを大きく変える可能性を秘めています。

文書再構築の仕組み

まず、各ページを画像として扱います。これらの画像は、高度な視覚言語モデル（VLM）によって解析されます。従来のOCRが文字を一つひとつ認識するのに対し、VLMは人が文書を読むように、全体の文脈や構造を理解します。たとえば、文字がかすれていたり、表の一部が判読しづらい場合でも、周囲の情報を手がかりに内容を推測することができます。特に、画質が低い文書や複雑なレイアウトを持つ文書において、その効果は顕著です。

このような文脈理解は、企業にとって明確なメリットをもたらします。手動での修正作業の削減、古い契約書や低解像度のスキャン文書からの安定した情報抽出、そして従来のOCRでは精度が出にくかった表やフォームといった構造化データにおける高い再現性です。内容が正しく理解されてこそ、翻訳は信頼できる結果を生み出します。

このアプローチでは、テキストだけでなく、文字の位置を示す境界情報や背景画像など、レイアウトに関する情報もあわせて取得します。翻訳後、これらの情報は翻訳結果とともに、強力なレンダリングエンジンへと渡されます。

業務を支えるレンダリングエンジン

私たちが取り組んだ最大の技術的課題の一つが、新しいレンダリングエンジンの開発でした。文書の形式は、シンプルな手紙から、財務報告書の複雑な表、研究論文の図表、カラフルなパンフレットの精緻なレイアウトまで、実に多様です。

翻訳後、これらの要素を新しい言語でも可能な限り忠実に再現する必要があります。DeepLでは、事前に取得した情報を再構成し、翻訳後のテキストに合わせてレイアウトを柔軟に調整します。特に重要なのが、原文と翻訳文の文字量の違いに対応するためのフォントサイズ調整です。最終的に、すべてのページは新しいPDFとしてまとめられ、即座にユーザーに提供されます。

AIで自在にマルチモーダル翻訳

この「再構築」アプローチは、DeepLがテキストにとどまらず、音声、画像、動画、さらにはインタラクティブな要素を含むマルチモーダルコンテンツへと翻訳対象を広げるための基盤となっています。文書を画像として解析し、VLMを用いてレイアウト情報を含む内容を抽出することで、従来は対応が難しかったスキャン文書や画像形式の資料に対しても、視覚的な整合性を保った高品質な翻訳を実現します。また、このモジュール化された仕組みは、異なるソースを組み合わせた新しい文書生成の可能性も広げます。

VLMプロジェクトは、DeepLの文書ファイルの翻訳機能における画期的な進歩を象徴するものです。VLMプロジェクトは、DeepLの文書翻訳における大きな進化を象徴する取り組みです。「再構築」という新しい考え方と、最先端のVLMおよびOCR技術を組み合わせることで、視覚的に複雑な文書の翻訳をより正確かつ柔軟に行えるようになりました。この取り組みは、DeepLが言語AIの可能性を広げ続けていることを示すものであり、ユーザーの皆様にこれまで以上に実用性と汎用性の高い翻訳体験を提供するとともに、多様な業務ワークフローへのさらなる統合を可能にします。

DeepLとつながる

AIの最新技術に関する情報をいち早くご覧ください。