DeepL AI Labs

Переклад голосу в голос у режимі реального часу: Як DeepL формує майбутнє міжнародної комунікації

Початок роботи: Правильний фундамент

Наша подорож розпочалася з фундаментального виклику: створення механізму перетворення мовлення на текст, який відповідає стандарту DeepL щодо точності. Ми вийшли за межі існуючих архітектур, розробивши власні моделі завдяки цілеспрямованому процесу вдосконаленого навчання та високоякісного вдосконалення даних. Такий підхід дав очевидну перевагу в продуктивності.

Наші внутрішні тести показують, що наші моделі досягають найкращого на ринку показника помилок у словах (WER), забезпечуючи більш точні транскрипції, ніж визнані конкуренти. Замість публічних тестів ми оцінюємо якість транскрипції за допомогою ретельно підібраного власного набору тестів, який відображає бізнес-кейси, що цікавлять наших клієнтів.

[«Точність перетворення мовлення на текст (рівень помилок слів) моделей», порівняння нижчого рівня помилок DeepL Voice з Amazon Transcript та Microsoft Azure ШІ. Чим нижче, тим краще.]

Найскладніше: Усунення затримки та мерехтіння

Відмінна транскрипція — це лише початок. Переклад транскрипції, що постійно змінюється, в режимі реального часу ставить складні дослідницькі питання. При перекладі проміжної транскрипції – наприклад, уявіть собі першу частину довшого речення – важко передбачити, як продовжить свою думку мовець. Більшість інструментів першого покоління підходили до цієї проблеми одним із двох способів: або чекали, поки буде доступне повне речення, що призводило до значної затримки перекладу, або постійно оновлювали результат перекладу, що створювало неприємне «мерехтіння» для користувача (детальніше про це читайте тут).

Для DeepL Voice ми прагнемо забезпечити безперебійний користувацький досвід, зберігаючи високу якість перекладу та низьку затримку. Завдяки багаторічному досвіду досліджень у галузі нейронного машинного перекладу, ми маємо унікальні можливості розширювати межі перекладу в режимі реального часу та забезпечувати надзвичайно плавний і стабільний потік перекладеного тексту.

Подивіться, яка різниця між цими двома екранними записами DeepL Voice for Meetings (праворуч) та перекладами Microsoft Teams (ліворуч).

Створивши цей стабільний текстовий потік, ми подолали головну перешкоду на шляху до справжньої мети: легких і високоякісних голосових розмов. Натуральний звук просто неможливий, коли він генерується з нестабільного, мерехтливого сценарію.

Останній крок: Голос у реальному часі

З урахуванням цього ключового моменту, ми раді повідомити, що проект DeepL Voice-to-Voice зараз активно розробляється в DeepL ШІ Labs. Початкові результати є надзвичайно обнадійливими. 

Відповідно до нашої місії, яка полягає у створенні майбутнього робочого процесу ШІ для бізнесів, що працюють по всьому світу. Тепер ви можете отримати високоякісний голосовий переклад з мови на мову в режимі реального часу для багатьох мов!

Ось попередній тизер моделей перетворення тексту на мовлення (TTS) з підтримкою клонування голосу, над якими зараз працює дослідницька команда. Ви можете самі оцінити якість.

EN
Зразок голосу Voice
EN
TTS з клонуванням голосу Voice
DE
Зразок голосу
DE
TTS з клонуванням голосу Voice
ES
Зразок голосу Voice
ES
TTS з клонуванням голосу Voice
ZH
Зразок голосу Voice
ZH
TTS з клонуванням голосу Voice

Однак хороша модель TTS — це лише основа для чудового досвіду перетворення голосу в голос. Створення продукту, що працює в режимі реального часу, вимагає набагато більше: стратегії фрагментованого виведення, безперервного ланцюга генерованого аудіо та контролю швидкості виводу для досягнення мінімальної затримки.

Якість, яку ви щойно почули, є нашою новою базовою лінією. Ця технологія є для нас основним напрямком діяльності, і ми будемо ділитися додатковою інформацією та деталями напередодні важливих подій, які відбудуться пізніше цього року. Майбутнє комунікацій на основі ШІ вже майже настало!

Поширити

Залишайтеся на зв’язку

Отримайте попередній перегляд наших останніх інновацій у галузі ШІ.