DeepL AI Labs
Нові продукти та рішення, які ми створюємо в DeepL AI Labs, стали можливими завдяки нашій багаторічній співпраці з NVIDIA. Останньою віхою в цьому партнерстві стало розгортання DeepL першої NVIDIA DGX SuperPOD з системами DGX GB200 в Європі на початку цього року. Цей новий суперкомп'ютер відкриває нові можливості в області навчання та розгортання рішень на основі ШІ.
Ми назвали наш новий NVIDIA SuperPOD DeepL Arion. Він використовує архітектуру NVIDIA Grace Blackwell, яка з'єднує між собою «острови» з 72 потужних графічних процесорів Blackwell, щоб вони могли працювати як єдине ціле. Чим більше графічних процесорів підключено до SuperPOD таким чином, тим потужнішим він стає, і Arion набагато потужніший навіть за наш попередній суперкомп'ютер NVIDIA, Mercury. Меркурію знадобилося б 193 дні, щоб перекласти весь Інтернет. Якби ми поставили Arion це гіпотетичне завдання, він зміг би виконати його більш ніж у 10 разів швидше, всього за 18 днів!
Переклад всесвітньої мережі звучить вражаюче, але значення Arion для нашої здатності навчати великі мовні моделі (LLM) є ще більш значущим. Простіше кажучи, чим швидше графічні процесори можуть обмінюватися даними, тим більші моделі ми можемо створювати за їх допомогою. За допомогою Arion ми можемо використовувати прості, масштабовані архітектури для створити набагато більші LLM.
Ми можемо навчати ці великі LLM за допомогою масштабованих навчальних даних, використовуючи складні техніки, які ми вперше застосували для навчання наших моделей мовного ШІ. Це перевірений підхід до генерування синтетичних даних, який дозволив нам постійно покращувати якість DeepL LLMs з часом, і він допоможе нам повністю реалізувати потенціал більших моделей, які ми створюємо.
Дослідження в галузі ШІ показують, що коли ви створюєте більші моделі та навчаєте їх на більших обсягах високоякісних даних, ці моделі можуть почати демонструвати раніше непередбачувані здатності.
Це часто відбувається у вигляді моделі, яка дуже швидко еволюціонує від сприйняття завдання як надзвичайно складного до сприйняття його як відносно легкого. Такі новітні здатності винагороджують дослідників за розширення меж можливостей ШІ, вигадування нових проблем, які можна вирішити, та експериментування з новими способами їх вирішення. Ми створили DeepL ШІ Labs, щоб налагодити процес проведення таких експериментів. І тим самим ми робимо сміливі, але розумні ставки на те, що моделі DeepL зможуть зробити далі.
Ми робимо це, встановлюючи амбітні цілі, які, як ми знаємо, суттєво вплинуть на те, як люди працюють і наскільки вони будуть продуктивними. Потім ми інтенсивно експериментуємо, випробовуючи ідеї щодо нових функцій, які можуть допомогти нам досягти цих цілей. Нові здатності означають, що навіть дуже амбітні експерименти можуть виявитися напрочуд успішними. Розширення діапазону цілей і рішень, до яких ми застосовуємо наші моделі, сприяє ще швидшому появі нових здатностей.
Вплив більшої обчислювальної потужності та нових здатностей вже формує функції DeepL та досвід людей, які використовують наші інструменти.
Clarify, експерт з перекладу на замовлення, який знає, коли потрібно задати розумні питання для уточнення значення, є одним із перших прикладів цього. Коли моделі можуть розуміти неоднозначність і виявляти припущення так, як це робить Clarify, вони здатні взаємодіяти з користувачами більш цінним, наближеним за якістю до виконаного людиною способом. Це допомагає забезпечити досвід роботи з ШІ, який є більш чуйнимі дає набагато більш релевантні та вражаючі результати, ніж модель, яка намагається міркувати самостійно.
Спочатку ми розробили ці інтерактивні здатності для завдань перекладу, але вони однаково цінні для майже будь-якої програми ШІ. Розробляючи моделі, які можуть більш природно, інтелектуально та продуктивно співпрацювати з людьми, ми допомагаємо підприємствам та іншим організаціям досягти набагато більших результатів за допомогою ШІ.
Проекти, що формуються в DeepL ШІ Labs, досліджують інноваційні нові способи реалізації цього потенціалу. Таким чином, вони отримують вигоду від іншого результату нашої тісної співпраці з NVIDIA з метою максимізації потенціалу обчислювальної потужності: підвищення швидкості виведення.
Загалом, більші моделі ШІ мають більшу затримку, що означає, що користувачі мають довше чекати на результати, коли просять ШІ виконати завдання. Підвищена обчислювальна потужність Arion у поєднанні з підтримкою NVIDIA навчання FP8 та виведення FP4 допомагає змінити цю ситуацію. Це означає, що наші більші та потужніші моделі все одно можуть виконувати завдання надзвичайно швидко.
Arion допомагає агентам ШІ виконувати складні завдання зі швидкістю, необхідною користувачам. Це також дозволяє реалізовувати амбітні проекти, такі як наш революційний підхід до перекладу з мови на мову, який базується на здатності інтелектуально передбачати, що говорять люди, і перекладати їхні слова в міру того, як вони їх вимовляють.
У DeepL ми ніколи не цікавилися інноваціями заради інновацій. Натомість ми прагнемо реалізувати інноваційні ідеї, які мають реальний вплив на світ, зокрема на досвід людей у роботі та житті. Здатності DeepL Arion, а також наша співпраця з NVIDIA та EcoDataCenter, що лежить в їх основі, дають нам змогу випробовувати набагато ширший спектр ідей для такого впливу на реальний світ. Саме ці швидко зростаючі можливості роблять DeepL ШІ Labs таким захоплюючим місцем.