DeepLの仕組み

作成： DeepL Team最終更新日: 2021年10月31日

大手技術系企業の翻訳システムよりDeepLの方が上手く翻訳できることが多いのはなぜか、とよく聞かれますが、これにはいくつか理由があります。他の多くの翻訳システムと同様、DeepLでも人工ニューラルネットワークを使って翻訳しています。ネットワークのトレーニングには、何百万もの翻訳済みテキストを使用していますが、DeepLのリサーチャーらは、ニューラルネットワークの方法論の全般、特に次の4分野に大幅な改善を加えてきました。

ネットワークアーキテクチャ

一般に公開されている翻訳システムのほとんどは、Transformerのアーキテクチャを直接改良したものであることはよく知られています。もちろん、DeepLのニューラルネットワークにも、アテンション機構などTransformerのアーキテクチャを一部採用しています。ただ、ネットワークのトポロジーに大きな違いがあり、最新の研究成果と比べて格段に高品質の翻訳が得られます。私たちのアーキテクチャとTransformerのアーキテクチャについて、共通のデータを使って比較試験やネットワークトレーニングを行うと、クオリティの違いがよく分かります。

トレーニングデータ

私たちの直接の競合相手は、長年にわたりウェブクローラーを開発してきた大手技術系企業です。したがって、彼らは利用可能なトレーニング用データの量において明確な優位性を持っています。一方、私たちは、ネットワークがより高い翻訳品質を達成するのに役立つ特別なトレーニング用データを意図的に取得することに重点を置いています。この一環として、インターネット上の翻訳を自動検索し、翻訳の品質を自動評価できる特殊なクローラーを開発しました。

トレーニング方法

一般に知られている研究では、通常「教師あり学習」の手法を使ってネットワークをトレーニングしています。この手法では、異なる例文を何度もネットワークに提示し、ネットワークはトレーニングデータとして与えられた訳文とネットワークが訳出した結果を繰り返し比較します。不一致がある場合、ネットワークの重みはそれに応じて調整されます。また、ニューラルネットワークを訓練する際には、機械学習の他の分野における技術も活用しております。大幅な品質改善を実現しています。

ネットワークのサイズ

主要な競合他社と同様、私たちは何十億ものパラメータを使って翻訳ネットワークをトレーニングしています。これらのネットワークは非常に大規模であるため、専用の大規模な計算クラスター上で分散処理によってのみ訓練することが可能です。しかしながら、我々の研究では、ネットワークのパラメータが非常に効率的に使用されるという事実に大きな重要性を置いています。このようにして、競合他社と比べると小規模ですが高速なネットワークを使って、同等の品質で翻訳できるようになりました。そして無料版のユーザーにも、非常に高精度の翻訳サービスをご提供できるようになりました。

DeepLでは、私たちと一緒に開発を促進し、DeepL翻訳の精度をさらに向上させ、世界から言葉の壁をなくしたいと考える優秀な数学者やコンピュータサイエンティストを常時募集しています。数学やニューラルネットワークの訓練するに関するご経験をお持ちで、世界中で無料で利用されている製品に携わることにやりがいを感じられる方は、ぜひDeepLへご応募ください！