DeepL AI Labs

Перевод речи в режиме реального времени: как DeepL формирует будущее глобальной коммуникации

Начало работы: Правильный фундамент

Наше путешествие началось с фундаментальной задачи: создать механизм голосового ввода, который соответствовал бы стандарту DeepL в отношении точности. Мы вышли за рамки существующих архитектур, разработав собственные модели посредством целенаправленного процесса углубленного обучения и высококачественной очистки данных. Этот подход обеспечил значительное преимущество в производительности.

Наши внутренние тесты показывают, что наши модели достигают лидирующего на рынке показателя ошибок перевода (WER), обеспечивая более точные результаты распознавания речи, чем у признанных конкурентов. Вместо общедоступных тестов мы оцениваем качество распознавания речи на тщательно подобранном собственном наборе тестов, который отражает бизнес-сценарии, важные для наших клиентов.

[«Точность голосового ввода текста (коэффициент ошибок слов) моделей», сравнение более низкого коэффициента WER DeepL Voice с Amazon Transcript и Microsoft Azure AI Speech. Чем ниже, тем лучше.

Сложность заключается в следующем: Устранение задержек и мерцания

Качественное распознавание речи — это только начало. Перевод развивающейся стенограммы в режиме реального времени ставит сложные исследовательские вопросы. При переводе промежуточной транскрипции — например, представьте себе первую часть более длинного предложения — сложно предсказать, как говорящий будет продолжать. Большинство инструментов первого поколения подходили к решению этой проблемы одним из двух способов: либо ожидая, пока будет доступно полное предложение, что приводит к значительной задержке перевода, либо постоянно обновляя результат перевода, что создает неприятное «мерцание» для пользовательского опыта (подробнее об этом можно прочитать здесь).

В отношении DeepL Voice мы стремимся обеспечить удобный пользовательский опыт, сохраняя при этом высокое качество перевода и низкую задержку. Благодаря нашему многолетнему опыту в области нейронного машинного перевода, мы имеем уникальную возможность расширять границы перевода в режиме реального времени и обеспечивать исключительно плавный и стабильный поток переведенного текста.

Обратите внимание на разницу между этими параллельными записями экрана DeepL Voice for Meetings (справа) и переводами Microsoft Teams (слева).

Благодаря разработке этого стабильного текстового потока мы преодолели основное препятствие на пути к достижению нашей главной цели: обеспечению удобных и высококачественных голосовых разговоров. Естественное звучание аудио просто невозможно, если оно генерируется из нестабильного, мерцающего сценария.

Последний шаг: Голосовая связь в режиме реального времени

С учетом этого ключевого момента мы рады объявить, что проект DeepL Voice-to-Voice в настоящее время находится в стадии активной разработки в DeepL ИИ Labs. Первоначальные результаты являются чрезвычайно обнадеживающими.

В соответствии с нашей миссией по созданию будущих рабочих процессов ИИ для компаний, работающих по всему миру. Теперь доступны высококачественные голосовые переводы в режиме реального времени для многих языков.

Представляем предварительный обзор моделей озвучивания текста (TTS) с поддержкой клонирования голоса, над которыми в настоящее время работает исследовательская команда. Вы можете самостоятельно оценить качество.

Голосовой образец

TTS с клонированием голоса

Голосовой образец

TTS с клонированием голоса

Голосовой образец

TTS с клонированием голоса

Голосовой образец

TTS с клонированием голоса

Образец голоса Voice

TTS с клонированием голоса

Образец голоса Voice

TTS с клонированием голоса

Образец голоса Voice

TTS с клонированием голоса Voice

Образец голоса Voice

TTS с клонированием голоса Voice

Однако качественная модель TTS является лишь основой для отличного опыта преобразования текста в речь. Создание продукта, работающего в режиме реального времени, требует гораздо большего: стратегии фрагментированного вывода, бесшовного соединения сгенерированного аудио и контроля скорости вывода для достижения минимальной задержки.

Качество, которое вы только что услышали, является нашей новой базовой линией. Эта технология является для нас приоритетной, и мы будем публиковать дополнительные анонсы и подробную информацию по мере приближения крупных событий в конце этого года. Будущее коммуникаций на базе ИИ уже практически наступило.

Оставайтесь на связи

Получите предварительный доступ к нашим новейшим инновациям в области ИИ.

Перевод речи в режиме реального времени: как DeepL формирует будущее глобальной коммуникации

Начало работы: Правильный фундамент

Сложность заключается в следующем: Устранение задержек и мерцания

Последний шаг: Голосовая связь в режиме реального времени

Поделиться

Оставайтесь на связи