مختبرات الذكاء الاصطناعي مِن DeepL
هذا الصيف، واجه أحد فرقنا تحديًا ظل يواجه الشركات العالمية لسنوات: ترجمة المستندات المنسقة مع الحفاظ على التخطيط والأسلوب نفسه تمامًا كما في النص الأصلي.
فكر في المجموعة الواسعة من المستندات التي تصادفها كل يوم: كتيبات الشركات، وإرشادات الحكومة، والعقود القانونية، وتقارير الأبحاث، وغير ذلك الكثير. على السطح، قد يبدو هذا حلاً سهلاً. بعد كل شيء، فإن منصات الذكاء الاصطناعي القوية الحالية التي يمكنها كتابة الأكواد البرمجية، وصياغة الاستراتيجيات التجارية، أو التفكير في القضايا العلمية المعقدة، يجب أن تكون قادرة على ترجمة المستندات القانونية وإعادة إنتاجها بسهولة بحيث تبدو تمامًا مثل الأصل.
ولكن تعقيد هذه المهمة يصبح أكثر وضوحًا عندما تنظر إلى بعض الأمثلة:
تاريخياً، كانت ترجمة المستندات تعتمد على استخراج النص من XML داخل ملف .docx، وترجمته مع الاحتفاظ بالعلامات، ثم إعادة إدراج النص المترجم. بالنسبة لملفات.docx، تعمل هذه الطريقة بشكل جيد للغاية لأن البيانات المنظمة تسمح بإجراء تغييرات على النص مع الحفاظ على التخطيط الأصلي دون تغيير.
ولكن بالنسبة للوثائق الأخرى، مثل ملفات PDF التي تتم عمليات مسح ضوئي لها، فإن العملية أقل موثوقية. غالبًا ما يؤدي تحويل النص واستخراجه، ثم ترجمته وإعادة إدراجه، إلى ظهور صور غير مثالية ونصوص غير متوازنة وخطوط غير متطابقة.
بعد بضعة أشهر مكثفة من إعادة تصور كيفية حل هذه المشكلة، توصل فريق DeepL إلى نهج مختلف جذريًا، أطلقنا عليه اسم "إعادة البناء".
بدلاً من مجرد الحفاظ على بنية المستند الحالية، تراقب هذه الطريقة الجديدة شكل التخطيط، وتجمع معلومات مفصلة عنه، وتخزن هذه البيانات، ثم تستخدمها جنبًا إلى جنب مع النص الذي تم استخراجه لإعادة بناء المستند بالكامل — مما يؤدي إلى التخلص من المستند القديم بشكل فعال.
لا يمثل هذا التحول النموذجي قفزة تكنولوجية كبيرة فحسب، بل يخلق أيضًا فرصًا جديدة لكيفية معالجة وثائق المستندات وتسليمها.
الخطوة الأولى لإنجاح هذا الأمر هي تحويل كل صفحة إلى صورة. ثم يتم تحليل هذه الصور باستخدام تقنية نماذج اللغة البصرية المتقدمة (VLM). على عكس طرق التعرف البصري على الحروف (OCR) التقليدية، لا تكتفي تقنيات VLM بتحديد الحروف الفردية بشكل منفصل، بل إنها تفهم السياق الأوسع للوثيقة، تمامًا مثل طريقة قراءة البشر. عندما تصادف كلمة غير واضحة في عقد باهت أو إدخال غير واضح جزئيًا في جدول ممسوح ضوئيًا، يمكنك غالبًا معرفة ما تقوله من خلال فهم النص المحيط بها وهيكل المستند. تعمل VLM بشكل مشابه، حيث تستخدم أدلة سياقية لتحقيق دقة أعلى في استخراج النص، خاصةً عندما تكون جودة الصورة منخفضة أو يكون تخطيط المستند معقدًا.
يترجم هذا الفهم السياقي إلى فوائد ملموسة للشركات: تقليل التصحيحات اليدوية بعد المعالجة، واستخراج بيانات أكثر موثوقية من المستندات الصعبة مثل العقود القديمة أو المسح الضوئي منخفض الدقة، وأداء أفضل بكثير على البيانات المنظمة مثل الجداول والنماذج حيث غالبًا ما يواجه OCR التقليدي صعوبات في التعامل مع الخلايا الفردية. فقط عندما يتم فهم المحتوى بشكل موثوق يمكن أن تنتج ترجمته ناتجًا موثوقًا.
لا يقتصر هذا النهج على التقاط النص فحسب، بل يشمل أيضًا معلومات مثل المربعات المحيطة بالنص وتفاصيل حول صور الخلفية وغيرها من القواعد الاستدلالية للتخطيط. بمجرد ترجمة النص، يتم إدخال جميع هذه البيانات الغنية – الترجمة مقترنة بالمعلومات حول كيفية تصميم المستند – في محرك العرض القوي.
كان أحد أكبر التحديات التي كان علينا التغلب عليها هو بناء محرك عرض جديد. تتنوع تنسيقات الوثائق بشكل كبير، بدءًا من النصوص البسيطة على خلفية بيضاء، مثل الرسائل، إلى الجداول المعقدة في التقارير/البلاغات المالية، إلى الأشكال والرسوم البيانية مع التسميات في الأوراق البحثية، وصولًا إلى التخطيطات الرسومية المعقدة في الكتيبات الملونة.
بعد ترجمة النص، يجب إعادة بناء جميع هذه المكونات المختلفة في اللغة الجديدة بأكبر قدر ممكن من الدقة. يستخدم DeepL مجموعة من التقنيات لإعادة تجميع المعلومات المستخرجة مسبقًا وتكييف التخطيط لاستيعاب النص المترجم. ومن الجوانب المهمة في هذا الصدد تعديل أحجام الخطوط لتلائم الاختلافات في طول النصوص الأصلية والمترجمة. في الخطوة الأخيرة، يقوم المحرك بتجميع جميع الصفحات في ملف PDF جديد وتسليمه إلى المستخدم على الفور.
يعد نهج "إعادة البناء" هذا أساسياً لتوسع DeepL في المحتوى متعدد الوسائط — الذي يغطي المحتوى بتنسيقات مختلفة، بما في ذلك النص العادي والصوت والصور والفيديو والعناصر التفاعلية — مما يتيح ترجمة مجموعة أوسع من المحتوى تتجاوز الملفات النصية البحتة. من خلال تحويل المستندات إلى صور ثم استخدام VLMs لاستخراج المحتوى بما يتجاوز الكشف البسيط عن النص، بما في ذلك معلومات التخطيط الشاملة، يتيح DeepL الآن ترجمات دقيقة وعالية الجودة لمجموعة واسعة من المستندات والصور الممسوحة ضوئيًا - وهي تنسيقات كان من الصعب معالجتها في السابق - مع الحفاظ على سلامة العرض المرئي. كما أن نمطية هذه الخطوات تفتح آفاقًا مثيرة لإنشاء وثائق من مصادر أخرى تمامًا.
يمثل مشروع VLM تطوراً محورياً في إمكانات DeepL في مجال ترجمة المستندات. من خلال تبني نهج "إعادة البناء" والاستفادة من أحدث تقنيات VLM و OCR، فإننا لا نتيح فقط الترجمة الدقيقة للوثائق المعقدة بصريًا — مثل الصور وملفات PDF التي تتم عمليات مسح ضوئي عليها — بل نضع أيضًا الأساس لحلول قابلة للتخصيص بدرجة عالية وموجهة نحو سير العمل. تؤكد هذه المبادرة التزام DeepL بتوسيع حدود الحلول اللغوية القائمة على الذكاء الاصطناعي، وضمان حصول مستخدمينا على أدوات الترجمة الأكثر تنوعًا وقوة، وتمهيد الطريق لتطبيقات جديدة وتكامل أعمق عبر سير العمل المهني المتنوع.