DeepL AI Labs
올 여름, DeepL 팀은 글로벌 기업이 오랫동안 직면해 온 과제에 도전했습니다. 바로 원본 문서의 레이아웃과 스타일을 유지하면서 콘텐츠를 정확하게 번역하는 일이었습니다.
기업 브로슈어, 정부 지침서, 법률 계약서, 연구 보고서 등 일상적으로 접하는 다양한 문서를 떠올려 보세요. 겉보기에는 해결하기 쉬운 문제처럼 보일 수 있습니다. 결국 오늘날 코드를 작성하고, 비즈니스 전략을 수립하며, 복잡한 과학적 문제를 추론할 수 있는 강력한 AI 플랫폼은 문서의 구조를 그대로 유지하며 정확하게 번역할 수 있어야 합니다.
다음 예시를 통해 이러한 과제가 어려운 이유를 더 자세히 확인할 수 있습니다.
기존의 문서 번역 방식은 일반적으로 .docx 파일의 XML에서 텍스트를 추출한 후, 마크업을 유지한 상태로 번역하고, 번역된 텍스트를 다시 문서에 삽입하는 방식으로 이루어집니다. .docx 파일과 같은 구조화된 형식에서는 텍스트를 변경하면서도 원본 레이아웃을 대부분 유지할 수 있기 때문에 이 방식은 상당히 효과적입니다.
그러나, 스캔된 PDF 파일 등 다른 문서 형식의 경우 이러한 방식에 한계가 있습니다. 텍스트를 변환 및 추출한 후 번역한 뒤 다시 삽입하는 과정에서 이미지가 불완전해지거나, 텍스트 정렬이 어긋나고, 글꼴이 일치하지 않는 문제가 발생할 수 있습니다.
이 문제를 해결하기 위해 DeepL 팀은 수개월에 걸쳐 완전히 새로운 접근법인 ‘재구성’을 개발했습니다.
이 방법은 단순히 문서의 기존 구조를 유지하는 데 그치지 않습니다. 레이아웃을 관찰하고 상세 정보를 수집하여 데이터를 저장한 후, 추출된 텍스트와 결합하여 문서를 완전히 재구성합니다. 이는 사실상 완전히 새로운 문서를 생성하는 방식입니다.
이러한 패러다임의 변화를 통해 상당한 기술적 발전을 이루었으며, 문서 처리 및 전달 방식에 새로운 기회를 창출할 수 있습니다.
이 작업의 첫 단계는 모든 페이지를 이미지로 변환하는 것입니다. 이렇게 생성된 이미지는 고급 비전 언어 모델(VLM) 기술을 통해 분석됩니다. 기존의 광학 문자 인식(OCR) 방식과 달리, VLM은 개별 문자 식별에 의존하지 않습니다. 사람이 문서를 읽을 때처럼, 문서의 전반적인 맥락을 이해할 수 있습니다. 흐릿한 계약서에서 번진 단어나 스캔된 표의 일부만 식별할 수 있는 경우에도, 일반적으로 사람은 주변 텍스트와 문서 구조를 분석하여 내용을 더 정확하게 파악합니다. VLM은 이와 유사하게, 특히 이미지 품질이 낮거나 레이아웃이 복잡한 문서에서 문맥적 단서를 활용하여 텍스트 추출 정확도를 향상합니다.
이러한 맥락적 이해는 비즈니스 환경에서 실질적인 이점을 제공합니다. 문서 처리 후 수동 수정 작업이 줄어들고, 오래된 계약서나 저해상도 스캔본 등의 까다로운 문서에서도 더 안정적인 데이터를 추출할 수 있으며, 기존의 OCR 방식이 개별 셀 처리에서 일반적으로 어려움을 겪는 표나 양식 같은 구조화된 데이터에서도 더욱 높은 정확도를 보장합니다. 콘텐츠를 정확히 이해하는 것만이 신뢰할 수 있는 번역의 핵심이기 때문입니다.
또한, 이 접근 방식은 텍스트뿐만 아니라 텍스트의 위치 정보, 배경 이미지의 세부 요소, 기타 레이아웃 구조 등의 정보도 함께 분석합니다. 텍스트 번역이 완료되면, 번역된 텍스트와 문서 레이아웃 정보가 결합되어 모든 콘텐츠가 강력한 렌더링 엔진으로 입력됩니다.
DeepL이 극복해야 했던 가장 큰 과제 중 하나는 새로운 렌더링 엔진을 구축하는 일이었습니다. 문서는 다양한 형식으로 구성되어 있습니다. 흰색 배경의 편지 형식으로 작성된 일반 텍스트부터 재무 보고서의 복잡한 표, 연구 논문의 라벨이 달린 그림과 차트, 다채로운 브로슈어의 정교한 그래픽 레이아웃에 이르기까지 다양합니다.
텍스트 번역이 완료된 후에는 이러한 모든 구성 요소를 새로운 언어로 가능한 한 충실하게 재구성해야 합니다. DeepL은 다양한 기술을 활용하여 이전에 추출한 정보를 재구성하고 번역된 텍스트에 맞게 레이아웃을 조정합니다. 이 과정에서 중요한 점은 원문과 번역문의 길이 차이를 고려하여 글자 크기를 조정하는 것입니다. 마지막 단계에서 엔진은 모든 페이지를 새로운 PDF로 컴파일하여 사용자에게 즉시 전달합니다.
이 ‘재구성’ 접근 방식은 DeepL의 멀티 모달 콘텐츠 확장의 기반이 됩니다. 일반 텍스트, 오디오, 이미지, 비디오, 인터랙티브 요소 등 다양한 형식의 콘텐츠를 아우르며, 텍스트 기반 파일을 넘어 더 폭넓은 콘텐츠를 번역할 수 있습니다. 문서를 이미지로 변환한 후 VLM을 활용하여 단순한 텍스트 인식을 넘어 포괄적인 레이아웃 정보를 포함한 콘텐츠를 추출함으로써, DeepL은 이제 시각적 무결성을 유지하면서 기존에는 처리하기 어려웠던 다양한 스캔 문서 및 이미지를 더욱 정확하게 번역할 수 있습니다. 이러한 단계의 모듈식 구조는 완전히 새로운 출처에서 문서를 생성하는 흥미로운 가능성도 열어줍니다.
VLM 프로젝트는 DeepL의 문서 번역 기능에서 중요한 도약을 의미합니다. ‘재구성’ 접근 방식과 최첨단 VLM 및 OCR 기술을 활용함으로써 이미지나 스캔된 PDF 등 시각적으로 복잡한 문서도 정확하게 번역할 수 있으며, 고도로 맞춤화된 워크플로 중심의 솔루션을 위한 기반을 마련하고 있습니다. 이는 언어 AI의 한계를 확장하려는 DeepL의 의지를 보여주며, 사용자가 다재다능하고 강력한 번역 도구를 활용할 수 있도록 지원합니다. 또한, 다양한 전문 워크플로 전반에서 새로운 사례와 심층적 통합을 가능하게 합니다.