DeepL AI Labs

Gerçek zamanlı sesli çeviri: DeepL, küresel iletişimin geleceğini nasıl şekillendiriyor?

Başlangıç: Doğru temel

Yolculuğumuz temel bir zorlukla başladı: DeepL'nin hassasiyet standardını karşılayan bir konuşarak yazma motoru oluşturmak. Mevcut mimarilerin ötesine geçerek, gelişmiş eğitim ve yüksek kaliteli veri iyileştirme sürecine odaklanarak özel modeller geliştirdik. Bu yaklaşım, açık bir performans avantajı sağlamıştır.

Dahili karşılaştırmalarımız, modellerimizin pazar lideri bir Kelime Hata Oranı (WER) elde ettiğini ve yerleşik rakiplerden daha doğru transkripsiyonlar sağladığını göstermektedir. Halka açık karşılaştırma ölçütleri yerine, müşterilerimizin önem verdiği iş kullanım örneklerini yansıtan, özenle hazırlanmış özel bir test seti üzerinde transkripsiyon kalitesini değerlendiriyoruz.

["Modellerin Konuşarak Yazma Doğruluğu (Kelime Hata Oranı)", DeepL Voice'un Amazon Transcript ve Microsoft Azure AI Speech'e kıyasla daha düşük WER değerini karşılaştırıyor. Daha düşük olan daha iyidir.]

Zor olan kısım: Gecikme ve titremeyi ortadan kaldırma

Harika bir transkripsiyon sadece başlangıçtır. Gelişen bir transkripsiyonu gerçek zamanlı olarak çevirmek, zorlu araştırma sorularını beraberinde getirir. Ara transkripsiyon çevirirken – örneğin, uzun bir cümlenin ilk kısmını düşünün – konuşmacının nasıl devam edeceğini bilmek zordur. Birinci nesil araçların çoğu bu sorunu iki yoldan biriyle ele almıştır: ya tüm cümle hazır olana kadar beklemek, bu da yüksek çeviri gecikmesine yol açar, ya da çeviri çıktısını sürekli güncellemek, bu da hoş olmayan bir "titreme" kullanıcı deneyimi yaratır (bu konuda daha fazla bilgi için buradan).

DeepL Voice için, yüksek çeviri kalitesini ve düşük gecikme süresini korurken, sorunsuz bir kullanıcı deneyimi sunmayı hedefliyoruz. Sinirsel makine çevirisi alanındaki uzun yıllara dayanan araştırma deneyimimizle, gerçek zamanlı çevirinin sınırlarını zorlayarak benzersiz bir şekilde akıcı ve istikrarlı bir çeviri metni akışı sunmak için eşsiz bir konumdayız.

DeepL Voice for Meetings (sağ tarafta) ve Microsoft Teams çevirileri (sol tarafta) ekran kayıtlarını yan yana karşılaştırarak aradaki farkı görün.

Bu istikrarlı metin akışını tasarlayarak, asıl hedefe ulaşmanın önündeki en büyük engeli aştık: zahmetsiz, yüksek kaliteli sesli görüşmeler. Kararsız, titrek bir komut dosyasından üretildiğinde doğal ses çıkışı elde etmek mümkün değildir.

Son adım: Gerçek zamanlı Voice

Bu anahtarın yerleştirilmesiyle, DeepL yapay zeka laboratuvarı bünyesinde DeepL Voice-to-Voice projesinin aktif olarak geliştirildiğini duyurmaktan büyük heyecan duyuyoruz. İlk sonuçlar inanılmaz derecede umut verici.

Dünya çapında faaliyet gösteren işletmeler için yapay zeka iş akışlarının geleceğini inşa etme misyonumuzla uyumlu olarak. Birçok dil için yüksek kaliteli gerçek zamanlı sesli çeviriler artık elinizin altında!

İşte araştırma ekibinin şu anda üzerinde çalıştığı ses klonlama desteğine sahip metin okuma (TTS) modelleri için bir ön izleme. Kaliteyi kendiniz değerlendirebilirsiniz.

Voice örneği

Voice Klonlama ile TTS

Voice örneği

Voice Klonlama ile TTS

Voice örneği

Voice Klonlama Özellikli TTS

Voice örneği

Voice Klonlama Özellikli TTS

Voice örneği

Voice Klonlama Özellikli TTS

Voice örneği

Voice Klonlama Özellikli TTS

Voice örneği

Voice Klonlama Özellikli TTS

Voice örneği

Voice Klonlama Özellikli TTS

Ancak, iyi bir TTS modeli, mükemmel bir Voice-to-Voice deneyiminin sadece temelidir. Gerçek zamanlı çalışan bir ürün geliştirmek için çok daha fazlası gerekir: parçalı çıkarım stratejisi, üretilen seslerin kesintisiz zincirlenmesi ve minimum gecikme süresi elde etmek için çıkış hızı kontrolü.

Az önce duyduğunuz kalite, bizim yeni temel standartımızdır. Bu teknoloji bizim için çok önemli bir odak noktasıdır ve yılın ilerleyen aylarında önemli etkinlikler yaklaşırken daha fazla ipucu ve ayrıntılı bilgi paylaşacağız. Yapay zeka destekli iletişimin geleceği neredeyse geldi!

Paylaş

Bağlantıda kalın

En son yapay zeka yeniliklerimizin ön izlemesini görün.