Как работает DeepL Переводчик?

Автор: DeepL TeamПоследнее обновление: 31 октября 2021 г.

В этой статье

Нас часто спрашивают, благодаря чему DeepL Переводчик нередко работает лучше, чем конкурирующие системы от крупнейших технологических компаний. Этому есть несколько объяснений. Как и большинство современных систем машинного перевода, DeepL Переводчик работает на основе нейронных сетей. Эти сети обучаются на огромном количестве готовых переводов. Однако наши исследователи также вносят множество усовершенствований в общую методологию нейронных сетей: в основном в четырех областях, о которых пойдет речь ниже.

Архитектура сетей

Большинство общедоступных систем перевода являются прямыми модификациями архитектуры Transformer. Нейронные сети DeepL также содержат некоторые элементы этой архитектуры: например, механизмы внимания. Однако в топологии наших сетей существуют значительные отличия, которые приводят к ощутимому улучшению общего качества перевода по сравнению с результатами других современных систем. Мы ясно видим эти различия в качестве архитектуры сетей, когда проводим обучение и сравниваем наши архитектуры с наиболее известными архитектурами Transformer на одних и тех же данных.

Обучающие данные

Большинство наших прямых конкурентов – крупные технологические компании с многолетней историей разработки веб-краулеров. Такие компании имеют явное преимущество в том, что касается объема доступных обучающих данных. Мы же, в свою очередь, уделяем большое внимание целенаправленному сбору особых обучающих данных, которые помогают нашей сети достичь еще более высокого качества перевода. Для сбора таких данных мы разработали, в частности, специальные краулеры, которые автоматически находят переводы в интернете и оценивают их качество.

Методология обучения

Обычно при обучении нейронных сетей используется метод обучения с учителем. Сети снова и снова показывают различные примеры, и она многократно сравнивает свои собственные переводы с переводами из набора обучающих данных. Если обнаруживаются расхождения, веса сети корректируются соответствующим образом. При обучении наших нейронных сетей мы также используем некоторые другие методы из прочих областей машинного обучения, что тоже позволяет нам добиться значительных улучшений.

Размер сетей

Как и наши крупнейшие конкуренты, мы обучаем нейронные сети с миллиардами параметров. Эти сети настолько крупны, что их можно обучать только распределенным способом на очень больших специализированных вычислительных кластерах. Однако в своих исследованиях мы придаем большое значение тому, чтобы параметры сетей использовались максимально эффективно. Этот подход позволил нам обеспечить сопоставимо высокое качество перевода даже при использовании небольших, более быстрых сетей. Благодаря этому мы можем предложить перевод отличного качества пользователям нашего бесплатного сервиса.

И, конечно, мы всегда в поиске талантливых специалистов в области математики и информатики, которые хотели бы помочь нам развивать DeepL Переводчик и преодолевать языковые барьеры по всему миру. Если у вас есть опыт работы в сфере математики и обучения нейронных сетей и вы хотели бы присоединиться к работе над бесплатным продуктом, который используется миллионами людей по всему миру, свяжитесь с нами!

Автор: DeepL TeamПоследнее обновление: 31 октября 2021 г.