DeepL AI Labs
Deze zomer heeft een van onze teams een uitdaging aangegaan waar internationale bedrijven al jaren mee worstelen: het vertalen van opgemaakte documenten met behoud van de exacte lay-out en stijl van het origineel.
Overweeg het brede scala aan documenten waarmee u dagelijks in aanraking komt: bedrijfsbrochures, overheidsrichtlijnen, juridische contracten, onderzoeksrapporten en nog veel meer. Op het eerste gezicht lijkt dit eenvoudig op te lossen. De krachtige AI-platforms van vandaag, die code kunnen schrijven, bedrijfsstrategieën kunnen ontwikkelen of complexe wetenschappelijke kwesties kunnen analyseren, zouden immers in staat moeten zijn om een juridisch document eenvoudig te vertalen en te reproduceren, zodat het er precies zo uitziet als het origineel.
De complexiteit van deze taak wordt echter veel duidelijker wanneer men enkele voorbeelden in overweging neemt:
Historisch gezien werd bij de documentvertaling de tekst uit de XML in een .docx-bestand gehaald, vertaald met behoud van de opmaak, en vervolgens weer ingevoegd. Voor .docx-bestanden werkt deze aanpak zeer goed, aangezien de gestructureerde gegevens de tekst kunnen wijzigen, terwijl de oorspronkelijke lay-out intact blijft.
Voor andere documenten, zoals gescande PDF-bestanden, is het proces echter minder betrouwbaar. Het converteren en extraheren van tekst, en vervolgens het vertalen en opnieuw invoegen ervan, leidt vaak tot onvolledige afbeeldingen, verkeerd uitgelijnde tekst en niet-overeenkomende lettertypen.
Na enkele intensieve maanden waarin we hebben nagedacht over hoe we dit probleem konden oplossen, heeft het DeepL-team een fundamenteel andere aanpak ontwikkeld, die we 'reconstructie' hebben genoemd.
In plaats van alleen de bestaande documentstructuur te behouden, observeert deze nieuwe methode de lay-out, verzamelt gedetailleerde informatie hierover, slaat deze gegevens op en gebruikt ze vervolgens samen met de geëxtraheerde tekst om het document volledig te reconstrueren — waarbij in feite het oude document wordtverwijderd.
Deze paradigmashift betekent niet alleen een aanzienlijke technologische sprong voorwaarts, maar biedt ook nieuwe mogelijkheden voor de verwerking en levering van documenten.
De eerste stap om dit te realiseren is het omzetten van elke pagina naar een afbeelding. Deze beelden worden vervolgens geanalyseerd met behulp van geavanceerde Vision Language Models (VLM)-technologie. In tegenstelling tot traditionele methoden voor optische tekenherkenning (OCR) identificeren VLM's niet alleen individuele tekens, maar begrijpen ze ook de bredere context van het document, net zoals mensen dat doen. Wanneer u een onduidelijk woord tegenkomt in een vervaagd contract of een gedeeltelijk leesbare item in een gescande tabel, kunt u vaak achterhalen wat er staat door de omringende tekst en de structuur van het document te begrijpen. VLMs werken op vergelijkbare wijze, waarbij contextuele aanwijzingen worden gebruikt om een hogere nauwkeurigheid te bereiken bij het extraheren van tekst, met name wanneer de beeldkwaliteit laag is of de lay-out van het document complex is.
Dit contextuele begrip vertaalt zich in concrete voordelen voor bedrijven: minder handmatige correcties na verwerking, betrouwbaardere gegevensextractie uit complexe documenten zoals verouderde contracten of scans met een lage resolutie, en aanzienlijk betere prestaties bij gestructureerde gegevens zoals tabellen en formulieren, waar traditionele optische tekenherkenning vaak moeite heeft met individuele cellen. Alleen wanneer de content correct wordt begrepen, kan de vertaling ervan betrouwbare resultaten opleveren.
Deze benadering legt niet alleen de tekst vast, maar ook informatie zoals de begrenzingskaders voor de tekst, details over achtergrondafbeeldingen en andere lay-outhuristieken. Zodra de tekst is vertaald, worden al deze gegevens – de vertaling in combinatie met de informatie over de lay-out van het document – ingevoerd in de krachtige rendering-engine.
Een van de grootste uitdagingen die we moesten overwinnen, was het ontwikkelen van een nieuwe rendering-engine. Documenten kunnen verschillende formaten hebben, variërend van eenvoudige tekst op een witte achtergrond, zoals brieven, tot complexe tabellen in financiële rapporten, figuren en grafieken met labels in onderzoeksrapporten en complexe grafische lay-outs in kleurrijke brochures.
Nadat de tekst is vertaald, moeten al deze verschillende onderdelen zo getrouw mogelijk in de nieuwe taal worden gereconstrueerd. DeepL maakt gebruik van een reeks technologieën om de eerder geëxtraheerde informatie opnieuw samen te stellen en de lay-out aan te passen aan de vertaalde tekst. Een belangrijk aspect hiervan is het aanpassen van de lettergrootte om rekening te houden met de verschillende lengtes van de originele en vertaalde teksten. In de laatste stap compileert de engine alle pagina's tot een nieuwe PDF en levert deze onmiddellijk aan de gebruiker.
Deze 'reconstructie'-benadering vormt de basis voor de uitbreiding van DeepL naar multimodale content – content in verschillende formaten, waaronder platte tekst, audio, afbeeldingen, video en interactieve elementen – waardoor een breder scala aan content kan worden vertaald dan alleen tekstbestanden. Door documenten om te zetten in afbeeldingen en vervolgens VLM's te gebruiken om de content te extraheren die verder gaat dan eenvoudige tekstdetectie, inclusief uitgebreide lay-outinformatie, maakt DeepL nu nauwkeurige, hoogwaardige vertalingen mogelijk van een veel breder scala aan gescande documenten en afbeeldingen – formaten die voorheen moeilijk te verwerken waren – met behoud van de visuele integriteit. De modulariteit van deze stappen biedt ook interessante mogelijkheden voor het creëren van documenten uit andere bronnen.
Het VLM-project betekent een belangrijke vooruitgang in de functie van DeepL op het gebied van documentvertaling. Door de 'reconstructie'-benadering te omarmen en gebruik te maken van geavanceerde VLM- en optische tekenherkenning-technologieën, maken we niet alleen de nauwkeurige vertaling van visueel complexe documenten mogelijk, zoals afbeeldingen en gescande pdf's, maar leggen we ook de basis voor zeer aanpasbare, workflowgestuurde oplossingen. Dit initiatief onderstreept het streven van DeepL om de grenzen van Language AI te verleggen, ervoor te zorgen dat onze gebruikers toegang hebben tot de meest veelzijdige en krachtige vertaaltools die er zijn, en de weg vrij te maken voor nieuwe applicaties en diepere integratie in diverse professionele workflows.