DeepL的工作原理

作者: DeepL Team

我们时常被问及,为何DeepL翻译器比一些科技巨头公司的同类系统运行更优。有几点原因可以解释。和大多数翻译系统一样,DeepL翻译器使用人工神经网络来翻译文本。对该网络的训练基于数以百万计的翻译文本。然而,我们的研究人员已经对整个神经网络方法进行了许多改进,其主要体现在四个方面。

网络架构

众所周知,大多数公开可用的翻译系统都是仅在Transformer架构的基础上进行修改。当然,DeepL的神经网络也包含该架构的一部分,如注意力机制。然而,该网络的拓扑结构却有很大区别,导致翻译质量总体上比公共研究的技术水平有很大的提高。当我们在同一数据上对我们的架构和最知名的Transformer架构进行内部训练和比较时,我们可以清楚地看到网络架构质量间的差异。

训练数据

我们的大多数直接竞争对手都是科技巨头公司,已有多年开发网络爬虫的经验。因此,他们在可用训练数据的数量上具有显著优势。 而我们则高度重视有针对性地获取特殊训练数据,这些数据有助于我们的网络实现更高的翻译质量。为此,我们开发了专门的爬虫,自动查找互联网上的翻译并评估其质量。

训练方法

在公开研究领域,训练网络通常使用“监督学习”方法进行训练。这意味着,多样的示例会反复呈现给训练网络。这样一来,该网络可以反复比较自己的翻译和训练数据中的翻译。若存在差异,网络权重将相应调整。 在训练神经网络时,我们还运用了机器学习其他领域的技术。这使得我们能够实现显著的改进。

网络规模

与此同时,我们(像我们最大的竞争对手一样)使用数以亿计的参数训练翻译网络。这些网络规模庞大,只能在超大型专用计算集群上以分布式方式进行训练。 然而,在我们的研究中,我们高度重视网络参数的高效利用。这使得我们在较小和较快的网络中也能达到类似的翻译质量。得益于此,我们也可以向我们的免费用户提供非常高的翻译质量。

当然,我们始终在寻找优秀的数学家和计算机科学家,希望他们愿意帮助推动发展,进一步改善DeepL翻译器,并打破世界各地的语言障碍。若您同时具备数学和神经网络训练经验,且热衷于参与开发全球免费使用的产品,那么请加入DeepL团队!

分享