DeepL AI Labs
Bu yaz, ekiplerimizden biri, yıllardır küresel şirketleri uğraştıran bir zorluğun üstesinden geldi: biçimlendirilmiş belgeleri, orijinalindeki düzen ve tarzu koruyarak çevirmek.
Her gün karşılaştığınız çok çeşitli belgeleri düşünün: kurumsal broşürler, resmi kılavuzlar, yasal sözleşmeler, araştırma raporları ve daha fazlası. Görünüşte, bu kolay bir çözüm gibi görünebilir. Sonuçta, kod yazabilen, iş stratejileri oluşturabilen veya karmaşık bilimsel konuları analiz edebilen günümüzün güçlü yapay zeka platformları, yasal belgeleri kolayca çevirip orijinaliyle aynı şekilde yeniden üretebilmelidir.
Ancak bu görevin karmaşıklığı, birkaç örnek ele alındığında çok daha net bir şekilde ortaya çıkmaktadır:
Tarihsel olarak, belge çevirisi .docx dosyası içindeki XML'den metin çıkarmak, işaretlemeyi koruyarak çevirmek ve ardından çevrilmiş metni yeniden eklemek üzerine dayanıyordu. .docx dosyaları için, yapılandırılmış veriler metin değişikliklerine izin verirken orijinal düzeni bozmadığı için bu yaklaşım oldukça iyi sonuç verir.
Ancak taranmış PDF dosyaları gibi diğer belgeler için bu işlem daha az güvenilirdir. Metni dönüştürmek ve dışa aktarmak, ardından çevirmek ve yeniden eklemek genellikle kusurlu görüntülere, yanlış hizalanmış metinlere ve uyumsuz yazı tiplerine yol açar.
Bu sorunu nasıl çözeceğimizi yeniden düşünmek için yoğun birkaç ay geçirdikten sonra, DeepL ekipi temelde farklı bir yaklaşım geliştirdi ve biz buna "yeniden yapılandırma" adını verdik.
Mevcut belge yapısını korumakla kalmayıp, bu yeni yöntem düzeni inceler, bununla ilgili ayrıntılı bilgileri toplar, bu verileri depolar ve ardından metni dışa aktararak belgeyi tamamen yeniden oluşturur — eski belgeyi etkili bir şekilde silinir.
Bu paradigma shifti, yalnızca önemli bir teknolojik atılımı temsil etmekle kalmaz, aynı zamanda belgelerin işlenmesi ve teslim edilmesi konusunda yeni fırsatlar da yaratır.
Bunu gerçekleştirmek için ilk adım, her sayfayı bir görüntüye dönüştürmektir. Bu görüntüler daha sonra Advanced Görsel Dil Modelleri (VLM) teknolojisi kullanılarak analiz edilir. Geleneksel Optik Karakter Tanıma (OCR) yöntemlerinden farklı olarak, VLM'ler bireysel karakterleri ayrı ayrı tanımlamakla kalmaz, tıpkı insanların okuduğu gibi belgenin daha geniş bağlamını da anlar. Soluk bir sözleşmede silinmiş bir kelime veya taranmış bir tabloda kısmen okunabilir bir girişle karşılaştığınızda, genellikle çevresindeki metni ve belgenin yapısını anlayarak ne yazdığını çözebilirsiniz. VLMs benzer şekilde çalışır ve özellikle görüntü kalitesi düşük veya belge düzeni karmaşık olduğunda, metni daha yüksek doğrulukla dışa aktarmak için bağlamsal ipuçlarını kullanır.
Bu bağlamsal anlayış, işletmeler için somut faydalar sağlar: işleme sonrasında daha az manuel düzeltme, eski sözleşmeler veya düşük çözünürlüklü taramalar gibi zorlu belgelerden daha güvenilir veri çıkarma ve geleneksel optik karakter tanıma sisteminin genellikle bireysel hücrelerle zorlandığı tablolar ve formlar gibi yapılandırılmış verilerde önemli ölçüde daha iyi performans. İçerik güvenilir bir şekilde anlaşıldığında, çevirisi güvenilir bir sonuç verebilir.
Bu yaklaşım sadece metni değil, metnin sınırlayıcı kutuları, arka plan görüntüleri ve diğer düzen heuristikleri gibi bilgileri de yakalar. Metin çevirisi tamamlandıktan sonra, tüm bu zengin veriler – çeviri ile belgenin düzeni hakkındaki bilgiler – güçlü bir işleme motoruna aktarılır.
Aşmamız gereken en büyük zorluklardan biri, yeni bir görüntü işleme motoru geliştirmekti. Belgeler, mektuplar gibi beyaz arka plan üzerinde normal akıcı metinlerden, finansal raporlardaki karmaşık tablolara, araştırma makalelerindeki etiketli şekil ve grafiklere ve renkli broşürlerdeki karmaşık grafik düzenlerine kadar dikkate alınması gereken çok çeşitli formatlara sahiptir.
Metin çevrildikten sonra, tüm bu farklı bileşenlerin yeni dilde mümkün olduğunca aslına sadık kalınarak yeniden yapılandırılması gerekir. DeepL, önceden çıkarılan bilgileri yeniden bir araya getirmek ve çevrilen metni yerleştirmek için bir dizi teknoloji kullanır. Bunun önemli bir yönü, orijinal metin ile çevrilmiş metinlerin farklı uzunluklarına uyum sağlamak için yazı tipi boyutlarını ayarlamaktır. Son adımda, motor tüm sayfaları yeni bir PDF dosyasına derler ve anında kullanıcıya sunar.
Bu "yeniden yapılandırma" yaklaşımı, DeepL'in çok modlu içeriğe genişlemesinin temelini oluşturur. Bu yaklaşım, düz metin, ses, görüntü, video ve etkileşimli öğeler dahil olmak üzere farklı formatlardaki içeriği kapsar ve salt metin tabanlı dosyaların ötesinde daha geniş bir içerik yelpazesinin çevirisini mümkün kılar. Belgeleri görüntülere dönüştürerek ve ardından VLM'leri kullanarak basit metin algılamanın ötesinde, kapsamlı düzen bilgileri de dahil olmak üzere içeriği ayıklayan DeepL, artık görsel bütünlüğü korurken, daha önce işlenmesi zor olan formatlarda çok daha geniş bir yelpazedeki taranmış belgelerin ve görüntülerin doğru ve yüksek kaliteli çevirilerini mümkün kılıyor. Bu adımların modülerliği, tamamen başka kaynaklardan belgeler oluşturmak için de heyecan verici olanaklar sunar.
VLM projesi, DeepL'in belge çevirisi yeteneklerinde önemli bir ilerlemeyi temsil ediyor. "Yeniden yapılandırma" yaklaşımını benimseyerek ve en son VLM ve optik karakter tanıma teknolojilerinden yararlanarak, görüntüler ve taranmış PDF'ler gibi görsel olarak karmaşık belgelerin doğru bir şekilde çevrilmesini sağlamakla kalmıyor, aynı zamanda son derece özelleştirilebilir, iş akışı odaklı çözümlerin temelini de atıyoruz. Bu girişim, DeepL'in dil yapay zekası'nın sınırlarını zorlama, kullanıcılarımızın mevcut en çok yönlü ve güçlü çeviri araçlarına erişebilmesini sağlama ve çeşitli profesyonel iş akışlarında yeni uygulamalar ve daha derin entegrasyon için zemin hazırlama konusundaki kararlılığını vurgulamaktadır.