DeepL은 어떻게 작동하나요?

작성: DeepL Team

우리는 자주 DeepL 번역기가 주요 기술 기업들의 경쟁 시스템보다 종종 더 잘 작동하는 이유가 무엇인지 묻습니다. 그 이유는 여러 가지입니다. 대부분의 번역 시스템과 마찬가지로 DeepL 번역기는 인공 뉴럴 네트워크를 사용하여 텍스트를 번역합니다. 이러한 네트워크는 수백만 건의 텍스트 번역을 통해 훈련됩니다. 그러나 우리 연구진은 주로 네 가지 영역에서 뉴럴 네트워크 방법론 전반에 걸쳐 많은 개선을 이루었습니다.

네트워크 아키텍처

대부분의 공개 번역 시스템이 트랜스포머 아키텍처를 직접 변형한 것임은 잘 알려져 있다. 물론 DeepL의 뉴럴 네트워크도 어텐션 메커니즘과 같은 이 아키텍처의 일부를 포함하고 있습니다. 그러나 네트워크 토폴로지 측면에서도 상당한 차이가 존재하며, 이는 공개된 연구 분야의 최신 기술 대비 번역 품질의 전반적인 상당한 개선을 가져온다. 동일한 데이터로 내부적으로 훈련하고 비교할 때, 우리의 아키텍처와 가장 잘 알려진 트랜스포머 아키텍처 간의 네트워크 아키텍처 품질 차이를 명확히 확인할 수 있습니다.

훈련 데이터

우리의 직접적인 경쟁사 대부분은 웹 크롤러 개발에 오랜 연혁을 가진 주요 기술 기업들입니다. 따라서 그들은 이용 가능한 훈련 데이터의 양 측면에서 뚜렷한 이점을 가집니다. 반면 우리는 네트워크가 더 높은 번역 품질을 달성하는 데 도움이 되는 특수 훈련 데이터를 표적화하여 획득하는 데 중점을 둡니다. 이를 위해 우리는 인터넷에서 번역을 자동으로 찾아내고 그 품질을 평가하는 특수 크롤러를 비롯한 여러 도구를 개발했습니다.

훈련 방법론

공개 연구에서는 훈련 네트워크가 일반적으로 "지도 학습" 방법을 사용하여 훈련됩니다. 네트워크는 다양한 예시를 반복해서 보여줍니다. 네트워크는 반복적으로 자체 번역을 훈련 데이터의 번역과 비교합니다. 불일치가 발생할 경우 네트워크의 가중치가 그에 따라 조정됩니다. 뉴럴 네트워크 훈련 시 다른 기계 학습 분야의 기법들도 활용합니다. 이를 통해 우리는 상당한 개선을 달성할 수 있습니다.

네트워크 규모

한편, 우리는 (주요 경쟁사들과 마찬가지로) 수십억 개의 매개변수를 가진 번역 네트워크를 훈련시킵니다. 이러한 네트워크는 규모가 너무 커서 매우 큰 전용 컴퓨팅 클러스터에서 분산 방식으로만 훈련할 수 있습니다. 그러나 저희 연구에서는 네트워크의 매개변수가 매우 효율적으로 사용된다는 점을 매우 중요하게 생각합니다. 이렇게 해서 우리는 더 작고 빠른 네트워크를 사용하면서도 유사한 번역 품질을 달성할 수 있었습니다. 따라서 무료 서비스 사용자에게도 매우 높은 번역 품질을 제공할 수 있습니다.

물론, 우리는 항상 개발을 주도하고 DeepL 번역기를 더욱 개선하며 전 세계의 언어 장벽을 허물어 주실 뛰어난 수학자 및 컴퓨터 과학자를 찾고 있습니다. 수학 및 뉴럴 네트워크 훈련 경험이 있으시며, 전 세계에서 무료로 사용되는 제품 개발에 기여하는 일이 보람을 느끼신다면, DeepL에 지원해 주세요!

공유