DeepL AI Labs
私たちの取り組みは、DeepLの厳格な精度基準を満たす音声認識エンジンの開発という、基盤づくりから始まりました。既存のアーキテクチャに依存するのではなく、高度なトレーニングと高品質なデータ精緻化に重点を置いたプロセスを通じて、独自の音声認識モデルを構築しています。このアプローチにより、明確な性能上の優位性が得られました。
社内ベンチマークでは、市場をリードする水準の単語誤認識率(WER)を達成し、既存の競合ソリューションを上回る正確な文字起こしを実現しています。評価には公開ベンチマークではなく、実際のお客様の業務に即したユースケースを反映した、慎重に設計された独自のテストセットを用いています。
モデルごとの音声認識精度の比較(単語誤認識率):DeepL Voiceの単語誤認識率(WER)を、Amazon TranscribeおよびMicrosoft Azure AI Speechと比較しています。数値が低いほど、音声認識の精度が高いことを示します。
優れた文字起こしは、あくまで出発点に過ぎません。変化し続ける文字起こしをリアルタイムで翻訳するには、さらに難度の高い研究課題が立ちはだかります。たとえば、話者が文の途中にいる段階で翻訳を開始すると、その後の展開を正確に予測することは困難です。第一世代の多くのツールは、この課題に対して二つの選択肢のいずれかを採ってきました。一つは、完全な文が確定するまで翻訳を待つことで品質を保る方法ですが、その分、出力に遅延が生じます。もう一つは、翻訳結果を逐次更新する方法で、即時性は得られるものの、表示が頻繁に変わるため、不快な「ちらつき」を伴う体験につながります(詳細はこちら)。
DeepL Voiceは、高い翻訳品質と低遅延を両立しながら、滑らかで安定したユーザー体験を提供することを目指しています。ニューラル機械翻訳分野で長年にわたり培ってきた研究成果を活かし、リアルタイム翻訳の限界を押し広げることで、他に類を見ない自然で安定した翻訳テキストのストリームを実現しました。
右側に表示されているDeepL Voice for Meetingsと、左側のMicrosoft Teams翻訳の並列画面をご覧いただくと、その違いを直感的にご確認いただけます。
この安定したテキストストリームの実現により、私たちは本来の目標である「労力を感じさせない高品質な音声対話」への大きな障壁を取り除くことができました。翻訳テキストが不安定であれば、それを基に生成される音声も自然にはなり得ません。
この重要な基盤が整った今、DeepL AI LabsにおいてDeepL Voice-to-Voiceプロジェクトが本格的に進行していることをお知らせできることを、大変嬉しく思います。初期の成果は非常に有望です。
世界中で事業を展開する企業のために、AIによる業務ワークフローの未来を構築するという当社の使命のもと、多言語での高品質なリアルタイム音声翻訳が、いよいよ現実のものとなりました。
以下では、現在研究チームが開発中の音声クローン機能を備えたテキスト読み上げ(TTS)モデルのプレビューをご紹介します。その品質を、ぜひご自身の耳でお確かめください。
もっとも、優れたTTSモデルは、高品質な音声翻訳体験を支える要素の一つに過ぎません。リアルタイムで実用的に機能するプロダクトを実現するためには、チャンク化された推論戦略、生成音声の自然な連結、遅延を最小限に抑えるための出力速度制御など、複数の技術要素を精緻に組み合わせる必要があります。
今回お聞きいただいた音声品質は、今後のDeepLにおける新たな基準となるものです。この技術は現在、当社の最重要テーマの一つとして位置づけられており、今年後半に予定されている主要イベントに向けて、さらなるデモや詳細な技術解説を順次公開していく予定です。AIが支えるコミュニケーションの未来は、もうすぐそこまで来ています。