مختبرات الذكاء الاصطناعي مِن DeepL

ترجمة صوتية فورية: كيف يشكل DeepL مستقبل الاتصالات العالمية

البدء: الأساس الصحيح

بدأت رحلتنا بتحدي أساسي: إنشاء محرك تحويل الكلام إلى نص يفي بمعايير DeepL للدقة. تجاوزنا البنى القائمة، وقمنا بتطوير نماذج خاصة بنا من خلال عملية مركزة من التدريب المتقدم وتحسين البيانات عالية الجودة. وقد أدى هذا النهج إلى تحقيق ميزة واضحة في الأداء.

تُظهر معاييرنا الداخلية أن نماذجنا تحقق معدل خطأ في الكلمات (WER) رائدًا في السوق، مما يوفر نسخًا مكتوبةً أكثر دقة من المنافسين المعروفين. بدلاً من المعايير العامة، نقوم بتقييم جودة النسخ المكتوبة على مجموعة اختبارات خاصة تم اختيارها بعناية لتعكس حالات الاستخدام التجارية التي تهم عملاءنا.

["دقة تحويل الكلام إلى نص (معدل الخطأ في الكلمات) للنماذج"، مقارنة معدل الخطأ في الكلمات المنخفض لـ DeepL Voice بمعدل الخطأ في الكلمات لـ Amazon Transcript و Microsoft Azure AI Speech. الأقل هو الأفضل.]

الجزء الصعب: القضاء على التأخير وال وميض

النسخة المكتوبة الجيدة هي مجرد البداية. ترجمة نسخة مكتوبة متطورة في الوقت الفعلي تفرض أسئلة بحثية صعبة. عند ترجمة نسخة مكتوبة متوسطة الطول – على سبيل المثال، تخيل الجزء الأول من جملة طويلة – من الصعب معرفة كيف سيكمل المتحدث كلامه. تعاملت معظم أدوات الجيل الأول مع هذه المشكلة بإحدى طريقتين: إما بالانتظار حتى تكتمل الجملة، مما يؤدي إلى تأخير كبير في الترجمة، أو بتحديث النص المترجم باستمرار، مما ينتج عنه تجربة مستخدم غير سارة بسبب "الوميض" (اقرأ المزيد عن ذلك هنا).

بالنسبة إلى DeepL Voice، نطمح إلى توفير تجربة مستخدم سلسة مع الحفاظ على جودة ترجمة عالية وزمن استجابة منخفض. بفضل خبرتنا الطويلة في مجال الترجمة الآلية العصبية، نتمتع بموقع فريد يسمح لنا بتوسيع حدود الترجمة الفورية وتقديم ترجمة سلسة ومستقرة بشكل فريد.

شاهد الفرق في تسجيلات الشاشة المتجاورة هذه لـ DeepL Voice for Meetings (على الجانب الأيمن) وترجمات Microsoft Teams (على الجانب الأيسر).

من خلال هندسة هذا التدفق النصي المستقر، تمكنا من التغلب على العقبة الرئيسية التي تحول دون تحقيق الهدف الحقيقي: إجراء محادثات صوتية عالية الجودة دون عناء. لا يمكن الحصول على صوت طبيعي عند إنشاءه من نص غير مستقر ومتقطع.

الخطوة الأخيرة: صوت في الوقت الحقيقي

مع وجود هذا المفتاح، يسعدنا أن نعلن أن مشروع DeepL Voice-to-Voice قيد التطوير النشط حاليًا في DeepL Labs للذكاء الاصطناعي. النتائج الأولية واعدة للغاية. 

تماشياً مع مهمتنا المتمثلة في بناء مستقبل سير عمل الذكاء الاصطناعي للشركات التي تعمل في جميع أنحاء العالم. أصبح الآن من السهل الحصول على ترجمات صوتية فورية عالية الجودة للعديد من اللغات!

فيما يلي عرض أولي لنماذج تحويل النص إلى كلام (TTS) مع دعم استنساخ الصوت التي يعمل عليها فريق البحث في الوقت الحالي. يمكنك الحكم على الجودة بنفسك.

EN
نموذج صوتي
EN
TTS مع استنساخ الصوت
DE
نموذج صوتي
DE
TTS مع استنساخ الصوت
ES
نموذج صوتي
ES
TTS مع استنساخ الصوت
ZH
نموذج صوتي
ZH
TTS مع استنساخ الصوت

ومع ذلك، فإن نموذج TTS الجيد هو مجرد أساس لتجربة صوتية رائعة. يتطلب بناء منتج يعمل في الوقت الفعلي أكثر من ذلك بكثير: استراتيجية للاستدلال المجزأ، وربط سلس للصوت الذي يتم إنشاؤه والتحكم في سرعة الإخراج لتحقيق أقل زمن انتقال ممكن.

الجودة التي سمعتها للتو هي معيارنا الأساسي الجديد. هذه التكنولوجيا هي محور اهتمامنا، وسنشارك المزيد من المقتطفات والمعلومات التفصيلية مع اقتراب الأحداث الكبرى في وقت لاحق من هذا العام. مستقبل الاتصالات المدعومة بالذكاء الاصطناعي أصبح قريبًا!

مشاركة

ابقَ على تواصل معنا

احصل على معاينة سريعة لأحدث ابتكاراتنا في مجال الذكاء الاصطناعي.