DeepL AI Labs

Membuka akses ke terjemahan berkualitas tinggi untuk dokumen yang dipindai dan konten berbasis gambar.

Mengapa penerjemahan dokumen begitu sulit? 

Musim panas ini, salah satu tim kami menghadapi tantangan yang telah lama menjadi masalah bagi perusahaan-perusahaan global: menerjemahkan dokumen yang diformat sambil mempertahankan tata letak dan gaya yang persis sama dengan aslinya.   

Bayangkan berbagai jenis dokumen yang Anda temui setiap hari: brosur perusahaan, pedoman pemerintah, kontrak hukum, laporan penelitian, dan masih banyak lagi. Secara sekilas, hal ini mungkin terdengar seperti solusi yang mudah. Lagi pula, platform kecerdasan buatan (AI) yang canggih saat ini, yang mampu menulis kode, merumuskan strategi bisnis, atau menganalisis masalah ilmiah yang kompleks, seharusnya dapat dengan mudah menerjemahkan dan mereproduksi dokumen hukum agar terlihat persis seperti aslinya.

Namun, kompleksitas tugas ini menjadi jauh lebih jelas ketika Anda mempertimbangkan beberapa contoh:

  • Panjang Word: Bayangkan menerjemahkan brosur perusahaan dari bahasa Inggris ke bahasa Jepang. Perbedaan panjang karakter menimbulkan tantangan kompleks dalam penataan teks di sekitar gambar, pemisahan halaman, dan tata letak kolom.
  • Gaya teks dan ukuran font: Dokumen yang diformat seringkali mencakup berbagai macam tata letak, gaya, dan ukuran – judul besar dan tebal, kutipan miring, tabel, simbol, dan lain-lain. Ini bukan hanya untuk kemudahan membaca; ini adalah pilihan desain yang disengaja yang mencerminkan gaya merek dan niat dari dokumen asli.
  • Konten multi-moda: Tantangan lainnya adalah menerjemahkan teks yang terdapat dalam gambar — seperti diagram dan ilustrasi — dalam berbagai gaya dan format.
  • Dokumen yang telah dipindai: Dalam kasus file yang dipindai, semuanya — termasuk teks — pada dasarnya adalah gambar. Untuk memperumit masalah, gambar yang dipindai jarang sekali sejajar dengan sempurna dan seringkali mengandung variasi tekstur kertas dan latar belakang. Hal ini menimbulkan tantangan yang lebih besar lagi dalam hal akurasi terjemahan dan tata letak yang presisi hingga tingkat piksel.

Pendekatan saat ini tidak efektif.

Secara historis, penerjemahan dokumen bergantung pada pengambilan teks dari XML dalam berkas Docx, menerjemahkannya sambil mempertahankan markup, dan kemudian menyisipkan kembali teks yang telah diterjemahkan. Untuk berkas .docx, pendekatan ini cukup efektif karena data terstruktur memungkinkan perubahan teks tanpa merusak tata letak asli. 

Namun, untuk dokumen lain, seperti file PDF yang dipindai, prosesnya kurang dapat diandalkan. Mengonversi dan mengekstrak teks, kemudian menerjemahkannya dan memasukkannya kembali, seringkali menghasilkan gambar yang tidak sempurna, teks yang tidak sejajar, dan font yang tidak cocok.

Terobosan DeepL: Dari terjemahan hingga rekonstruksi

Setelah beberapa bulan yang intens dalam merancang ulang cara menyelesaikan masalah ini, tim DeepL mengembangkan pendekatan yang secara fundamental berbeda, yang kami sebut "rekonstruksi". 

Alih-alih hanya mempertahankan struktur dokumen yang ada, metode baru ini menganalisis tata letak dokumen, mengumpulkan informasi detail tentangnya, menyimpan data tersebut, dan kemudian menggunakannya bersama teks yang diekstraksi untuk sepenuhnya merekonstruksi dokumen — secara efektif mengabaikandokumen lama. 

Pergeseran paradigma ini tidak hanya mewakili lompatan teknologi yang signifikan, tetapi juga membuka peluang baru dalam cara dokumen diproses dan disalurkan.

Bagaimana cara kerja rekonstruksi dokumen?   

Langkah pertama untuk membuat ini berfungsi adalah mengubah setiap halaman menjadi gambar. Gambar-gambar ini kemudian dianalisis menggunakan teknologi Vision Language Models (VLM) yang Advanced. Berbeda dengan metode Pengenalan Karakter Optik (OCR) tradisional, VLMs tidak hanya mengidentifikasi karakter secara terpisah – mereka memahami konteks yang lebih luas dari dokumen, mirip dengan cara manusia membaca. Ketika Anda menemui kata yang kabur dalam kontrak yang pudar atau entri yang sebagian terbaca dalam tabel yang dipindai, Anda seringkali dapat menebak apa yang tertulis dengan memahami teks di sekitarnya dan struktur dokumen tersebut. VLMs bekerja dengan cara yang serupa, menggunakan petunjuk konteks untuk mencapai akurasi yang lebih tinggi dalam mengekstrak teks, terutama ketika kualitas gambar rendah atau tata letak dokumen kompleks.

Pemahaman kontekstual ini memberikan manfaat konkret bagi bisnis: pengurangan koreksi manual setelah pemrosesan, ekstraksi data yang lebih andal dari dokumen-dokumen yang sulit seperti kontrak lama atau salinan yang dipindai dengan resolusi rendah, serta kinerja yang jauh lebih baik pada data terstruktur seperti tabel dan formulir, di mana OCR tradisional seringkali kesulitan dengan sel-sel individu. Hanya ketika konten dipahami dengan baik, terjemahannya dapat menghasilkan output yang dapat diandalkan.

Pendekatan ini tidak hanya menangkap teks, tetapi juga informasi seperti kotak batas untuk teks, detail tentang gambar latar belakang, dan heuristik tata letak lainnya. Setelah teks diterjemahkan, semua data yang kaya ini – terjemahan yang dipadukan dengan informasi tentang tata letak dokumen – dimasukkan ke dalam mesin rendering yang canggih.  

Mesin baru untuk jenis pekerjaan baru  

Salah satu tantangan terbesar yang harus kami atasi adalah mengembangkan mesin rendering baru. Dokumen memiliki berbagai format yang perlu dipertimbangkan, mulai dari teks sederhana yang mengalir di latar belakang putih, seperti surat, hingga tabel kompleks dalam laporan keuangan, grafik dan diagram dengan label dalam makalah penelitian, hingga tata letak grafis kompleks dalam brosur berwarna-warni. 

Setelah teks diterjemahkan, semua komponen yang berbeda ini perlu direkonstruksi dalam bahasa baru dengan sesetia mungkin. DeepL menggunakan serangkaian teknologi untuk menyusun kembali informasi yang telah diekstraksi sebelumnya dan menyesuaikan tata letak agar sesuai dengan teks yang terjemahkan. Aspek penting dari hal ini adalah menyesuaikan ukuran font untuk mengakomodasi perbedaan panjang teks asli dan terjemahan. Pada langkah terakhir, mesin mengompilasi semua halaman menjadi PDF baru dan mengirimkannya kepada pengguna secara instan.

Membuka potensi terjemahan multi-modus dengan kecerdasan buatan (AI)

Pendekatan "rekonstruksi" ini menjadi landasan bagi ekspansi DeepL ke konten multi-moda — mencakup konten dalam berbagai format, termasuk teks biasa, audio, gambar, video, dan elemen interaktif — yang memungkinkan terjemahan konten yang lebih beragam di luar file teks murni. Dengan mengubah dokumen menjadi gambar dan kemudian menggunakan VLMs untuk mengekstrak konten di luar deteksi teks sederhana, termasuk informasi tata letak yang komprehensif, DeepL kini memungkinkan terjemahan yang akurat dan berkualitas tinggi untuk berbagai jenis dokumen dan gambar yang dipindai — format yang sebelumnya sulit diproses — sambil mempertahankan integritas visual. Kemampuan modular dari langkah-langkah ini juga membuka peluang menarik untuk membuat dokumen dari sumber lain sepenuhnya.

Proyek VLM mewakili kemajuan signifikan dalam fungsi penerjemahan dokumen DeepL. Dengan mengadopsi pendekatan "rekonstruksi" dan memanfaatkan teknologi VLM dan OCR terdepan, kami tidak hanya aktifkan terjemahan akurat dokumen visual yang kompleks — seperti gambar dan PDF yang dipindai — tetapi juga membangun landasan untuk solusi yang sangat dapat disesuaikan dan didorong oleh alur kerja. Inisiatif ini menegaskan komitmen DeepL untuk terus mengembangkan batas-batas AI bahasa, memastikan pengguna kami memiliki akses ke alat terjemahan yang paling serbaguna dan powerful yang tersedia, serta membuka jalan bagi aplikasi baru dan integrasi yang lebih dalam di berbagai alur kerja profesional.

Bagikan

Tetap terhubung

Dapatkan cuplikan eksklusif tentang inovasi AI terbaru kami.