DeepL AI Labs

Terjemahan suara ke suara secara real-time: Bagaimana DeepL membentuk masa depan komunikasi global

Memulai: Fondasi yang tepat

Perjalanan kami dimulai dengan tantangan dasar: mengembangkan mesin ucapan-ke-teks yang memenuhi standar presisi DeepL. Kami melampaui arsitektur yang ada, mengembangkan model proprietary melalui proses pelatihan lanjutan yang terfokus dan penyempurnaan data berkualitas tinggi. Pendekatan ini telah menghasilkan keunggulan kinerja yang jelas.

Data internal kami menunjukkan bahwa model kami mencapai tingkat kesalahan kata (Word Error Rate/WER) yang memimpin pasar, menghasilkan transkripsi yang lebih akurat dibandingkan dengan pesaing yang sudah mapan. Alih-alih menggunakan benchmark publik, kami mengevaluasi kualitas transkripsi menggunakan kumpulan data uji eksklusif yang telah disusun dengan cermat, yang mencerminkan kasus penggunaan bisnis yang menjadi prioritas bagi pelanggan kami.

["Akurasi ucapan-ke-teks (Tingkat Kesalahan Kata) Model", membandingkan tingkat kesalahan kata (WER) yang lebih rendah dari DeepL Voice dengan Amazon Transcript dan Microsoft Azure AI Speech."] Semakin rendah, semakin baik.]

Bagian yang sulit: Menghilangkan latensi dan kedipan

Transkripsi yang bagus hanyalah awalnya. Menerjemahkan transkripsi yang terus berkembang secara real time menimbulkan pertanyaan penelitian yang menantang. Saat menerjemahkan transkripsi perantara – misalnya, bayangkan bagian awal dari kalimat yang lebih panjang – sulit untuk mengetahui bagaimana pembicara akan melanjutkan. Sebagian besar alat generasi pertama telah menangani masalah ini dengan dua cara: pertama, dengan menunggu hingga kalimat lengkap tersedia, yang mengakibatkan latensi terjemahan yang tinggi, atau dengan terus memperbarui output terjemahan, yang menghasilkan pengalaman pengguna yang tidak nyaman akibat "kedipan" (baca lebih lanjut tentang hal itu di sini).

Untuk DeepL Voice, kami berambisi untuk menyediakan pengalaman pengguna yang lancar sambil tetap menjaga kualitas terjemahan yang tinggi dan latensi yang rendah. Dengan pengalaman riset yang panjang dalam bidang terjemahan mesin berbasis jaringan saraf, kami memiliki keunggulan unik untuk mendorong batas-batas terjemahan real-time dan menyediakan aliran teks terjemahan yang mulus dan stabil secara unik.

Lihat perbedaannya dalam rekaman layar berdampingan ini antara DeepL Voice for Meetings (di sisi kanan) dan terjemahan Microsoft Teams (di sisi kiri).

Dengan mengoptimalkan aliran teks yang stabil ini, kami berhasil mengatasi hambatan utama menuju tujuan utama: percakapan suara-ke-suara yang lancar dan berkualitas tinggi. Output audio yang terdengar alami tidak mungkin dihasilkan dari skrip yang tidak stabil dan berkedip-kedip.

Langkah terakhir: Voice real-time

Dengan kunci tersebut sudah terpasang, kami dengan bangga mengumumkan bahwa proyek DeepL Voice-to-Voice kini sedang dalam tahap pengembangan aktif di DeepL AI Labs. Hasil awalnya sangat menjanjikan.

Sesuai dengan misi kami untuk membangun masa depan alur kerja kecerdasan buatan (AI) bagi bisnis yang beroperasi di seluruh dunia. Penyediaan terjemahan suara ke suara berkualitas tinggi secara real-time untuk banyak bahasa kini sudah dalam jangkauan!

Berikut ini adalah cuplikan awal untuk model teks-ke-ucapan (TTS) yang mendukung kloning suara yang sedang dikembangkan oleh tim riset saat ini. Anda dapat menilai kualitasnya sendiri.

Contoh suara