DeepL AI Labs
今年夏天,我们其中一支团队攻克了困扰全球企业多年的难题:在翻译格式化文档时,如何精确保留原文的版式与风格。
想想你每天接触到的各种文件:企业宣传册、政府指南、法律合同、研究报告等等。表面上看,这似乎是个容易解决的问题。毕竟,当今那些能够编写代码、制定企业战略或处理复杂科学问题的强大人工智能平台,理应能够轻松翻译并复现法律文件,使其与原件完全一致。
但当你考虑几个例子时,这项任务的复杂性就变得更加清晰了:
历史上,文档翻译依赖于从.docx文件中的XML提取文本,在翻译过程中保留标记,然后将翻译后的文本重新插入。对于.docx文件,这种方法效果相当不错,因为结构化数据允许文本变更,同时保留原始版式。
但对于其他文档,比如扫描的PDF文件,该过程的可靠性较低。转换和提取文本,然后进行翻译并重新插入,常常导致图像不完美、文本错位以及字体不匹配。
经过数月对解决该问题的深入探索,DeepL团队最终提出了一种根本不同的方法,我们将其命名为"重建"。
与仅保留现有文档结构不同,这种新方法会观察文档的布局,收集其详细信息,存储这些数据,然后结合提取文本对文档进行完整重建——从而有效地舍弃了旧文档。
这种范式Shift不仅代表着重大的技术飞跃,同时也为文件的处理与交付方式开辟了新的机遇。
要使这项工作成功,第一步是将每页内容转换为图像。这些图像随后通过先进的视觉语言模型(VLM)技术进行分析。与传统光学字符识别(OCR)方法不同,视觉语言模型(VLMs)不仅能识别孤立的字符,更能理解文档的整体语境,其运作方式与人类阅读极为相似。当你在褪色的合同中遇到模糊不清的词语,或在扫描的表格里发现部分可辨的条目时,通常可以通过理解上下文及文件结构来推断其内容。VLMs的工作原理类似,通过利用上下文线索来提高文本提取的准确性,尤其在图像质量较低或文档布局复杂时效果显著。
这种语境理解为企业带来切实效益:处理后的人工修正更少,从陈旧合同或低分辨率扫描件等复杂文档中提取的数据更可靠,且在表格和表单等结构化数据处理上表现显著提升——传统OCR技术往往难以处理此类文档中的单个单元格。唯有当内容被准确理解时,其翻译才能产生可靠的输出。
这种方法不仅能捕捉文本内容,还能获取文本边界框、背景图像细节及其他布局启发式信息。文本翻译完成后,所有这些丰富的数据——即翻译内容与文档排版信息——都会被输入到强大的渲染引擎中。
我们必须克服的最大挑战之一是构建一个全新的渲染引擎。文档的格式种类繁多,从纯白背景上的简约流动文本(如信函),到财务报告中的复杂表格,再到研究论文中带有标签的图表,乃至彩色宣传册中复杂的图形布局,不一而足。
文本翻译完成后,所有这些不同组成部分都需要在新语言中尽可能忠实地重建。DeepL采用一系列技术来重组先前提取的信息,并调整版式以适应翻译后的文本。其中一个重要方面是调整字体大小,以适应原文和译文长度的差异。在最后一步,引擎将所有页编译成新的PDF文件,并即时交付给用户。
这种"重建"方法是DeepL拓展多模态内容的基础——涵盖不同格式的内容,包括纯文本、音频、图像、视频和交互元素——从而能够翻译更广泛的内容类型,而不仅限于纯文本文件。通过将文档转换为图像,再运用视觉布局模型(VLMs)提取超越基础文本识别的内容(包括完整的版面信息),DeepL现可对更广泛的扫描文档和图像(此前难以处理的格式)进行精准优质的翻译,同时保持视觉完整性。这些步骤的模块化特性也为从其他来源创建文件开辟了令人兴奋的可能性。
VLM项目标志着DeepL在文档翻译能力方面取得的重大突破。通过采用"重建"方法并运用尖端的VLM和光学字符识别(OCR)技术,我们不仅实现了对图像和扫描PDF等视觉复杂文档的精准翻译,更为高度定制化、以工作流程为驱动的解决方案奠定了基础。此项举措彰显了DeepL致力于突破语言人工智能边界,确保用户能够使用最灵活强大的翻译工具,并为开辟全新应用程序场景、实现跨专业工作流程的深度融合铺平道路。