DeepL AI Labs
I sommar antog ett av våra team en utmaning som har plågat globala företag i åratal: att översätta formaterade dokument och samtidigt bevara exakt samma layout och stil som originalet.
Tänk på alla de olika dokument du kommer i kontakt med varje dag: företagsbroschyrer, myndighetsriktlinjer, juridiska kontrakt, forskningsrapporter och mycket mer. På ytan kan detta låta som en enkel lösning. När allt kommer omkring borde dagens kraftfulla AI-plattformar, som kan skriva kod, utforma affärsstrategier eller resonera kring komplexa vetenskapliga frågor, enkelt kunna översätta och återge ett juridiskt dokument så att det ser ut precis som originalet.
Men komplexiteten i denna uppgift blir mycket tydligare när man betraktar några exempel:
Historiskt sett har översättning av dokument byggt på att extrahera text från XML i en .docx-fil, översätta den med bibehållen markering och sedan infoga den översatta texten igen. För .docx-filer fungerar denna metod ganska bra eftersom den strukturerade datan tillåter att man ändrar text samtidigt som den ursprungliga layouten förblir intakt.
Men för andra dokument, som skannade PDF-filer, är processen mindre tillförlitlig. Att konvertera och extrahera text, och sedan översätta och infoga den igen, leder ofta till ofullkomliga bilder, feljusterad text och felaktiga teckensnitt.
Efter några intensiva månader av omprövning av hur detta problem skulle kunna lösas kom DeepL-teamet fram till en helt ny metod, som vi har kallat ”rekonstruktion”.
I stället för att bara bevara den befintliga dokumentstrukturen observerar den nya metoden layouten, samlar in detaljerad information om den, lagrar dessa data och använder dem sedan tillsammans med den extraherade texten för att helt rekonstruera dokumentet – vilket i praktiken innebär att det gamla dokumentet kasseras.
Denna paradigmförändring innebär inte bara ett betydande tekniskt språng framåt, utan skapar också nya möjligheter för hur dokument kan behandlas och levereras.
Det första steget för att få detta att fungera är att konvertera varje sida till en bild. Dessa bilder analyseras sedan med hjälp av avancerad Vision Språkmodeller (VLM)-teknik. Till skillnad från traditionella metoder för optisk teckenläsning (OCR) identifierar VLM inte bara enskilda tecken isolerat – de förstår dokumentets bredare sammanhang, ungefär som människor läser. När du stöter på ett suddigt ord i ett blekt kontrakt eller en delvis läsbar post i en skannad tabell kan du ofta lista ut vad det står genom att förstå den omgivande texten och dokumentets struktur. VLMs fungerar på liknande sätt och använder kontextuella ledtrådar för att uppnå högre noggrannhet vid extrahering av text, särskilt när bildkvaliteten är låg eller dokumentets layout är komplex.
Denna kontextuella förståelse innebär konkreta fördelar för företag: färre manuella korrigeringar efter bearbetning, mer tillförlitlig dataextrahering från svåra dokument som gamla kontrakt eller skanningar med låg upplösning, och betydligt bättre prestanda för strukturerade data som tabeller och formulär, där traditionell OCR ofta har svårt med enskilda celler. Endast när innehållet förstås på ett tillförlitligt sätt kan översättningen ge ett tillförlitligt resultat.
Denna metod fångar inte bara texten, utan även information som textens gränser, detaljer om bakgrundsbilder och andra layoutheuristiker. När texten är översatt matas all denna rika data – översättningen tillsammans med informationen om dokumentets layout – in i den kraftfulla renderingsmotorn.
En av de största utmaningarna vi var tvungna att övervinna var att bygga en ny renderingsmotor. Dokument finns i många olika format, från enkel löpande text på vit bakgrund, såsom brev, till komplexa tabeller i finansiella rapporter, till figurer och diagram med etiketter i forskningsrapporter och till komplexa grafiska layouter i färgglada broschyrer.
Efter att texten har översatts måste alla dessa olika komponenter återges så troget som möjligt på det nya språket. DeepL använder en rad tekniker för att återställa den tidigare extraherade informationen och anpassa layouten till den översättta texten. En viktig aspekt av detta är att justera teckenstorleken för att anpassa den till de olika längderna på originaltexten och den översatta texten. I det sista steget sammanställer motorn alla sidor till en ny PDF-fil och levererar den omedelbart till användaren.
Denna "rekonstruktionsmetod" är grundläggande för DeepL:s expansion till multimodalt innehåll – som omfattar innehåll i olika format, inklusive ren text, ljud, bilder, video och interaktiva element – vilket möjliggör översättning av ett bredare spektrum av innehåll än enbart textbaserade filer. Genom att konvertera dokument till bilder och sedan använda VLMs för att extrahera innehållet utöver enkel textdetektering, inklusive omfattande layoutinformation, möjliggör DeepL nu exakta, högkvalitativa översättningar av ett mycket bredare utbud av skannade dokument och bilder – format som tidigare var svåra att bearbeta – samtidigt som den visuella integriteten bevaras. Modulariteten i dessa steg öppnar också upp spännande möjligheter att skapa dokument från helt andra källor.
VLM-projektet representerar ett avgörande framsteg i DeepL:s kapacitet för översättning av dokument. Genom att anamma "rekonstruktionsmetoden" och utnyttja avancerad VLM- och OCR-teknik möjliggör vi inte bara korrekt översättning av visuellt komplexa dokument – såsom bilder och skannade PDF-filer – utan lägger också grunden för högst anpassningsbara, arbetsprocessdrivna lösningar. Detta initiativ understryker DeepL:s engagemang för att flytta gränserna för Språk-AI, säkerställa att våra användare har tillgång till de mest mångsidiga och kraftfulla översättningsverktygen som finns tillgängliga, samt bana väg för nya applikationer och djupare integration i olika professionella arbetsprocesser.