DeepL AI Labs

Traduzione di alta qualità per scansioni e contenuti basati su immagini

Perché la traduzione di documenti è così difficile? 

Quest’estate uno dei nostri team ha affrontato una sfida che affligge da anni le aziende di tutto il mondo: tradurre documenti formattati preservandone il layout e lo stile originali.   

Pensa alla vasta gamma di documenti che incontri ogni giorno: brochure aziendali, linee guida di enti governativi, contratti legali, report di ricerca e altro ancora. A prima vista, potrebbe sembrare una passeggiata. Dopotutto, le potenti piattaforme di IA odierne, in grado di scrivere codice, definire strategie aziendali o ragionare su complesse questioni scientifiche, dovrebbero essere in grado di tradurre e riprodurre facilmente un documento legale in modo che appaia identico all’originale.

Ma la complessità di questo compito diventa molto più chiara se consideri alcuni aspetti:

  • Lunghezza delle parole: immagina di tradurre una brochure aziendale dall’inglese al giapponese. Le differenze nella lunghezza dei caratteri creano sfide complesse nel testo che circonda le immagini, nelle interruzioni di pagina e nel layout delle colonne.
  • Stili di testo e dimensioni dei caratteri: i documenti formattati spesso includono un’ampia gamma di layout, stili e dimensioni, tra cui titoli grandi in grassetto, citazioni in corsivo, tabelle e simboli. Non servono solo per la leggibilità, ma sono scelte di design deliberate che riflettono lo stile del brand e l’intento del documento originale.
  • Contenuti multimodali: un’altra sfida è la traduzione di testo all’interno di immagini, come diagrammi e illustrazioni, in un’ampia gamma di stili e formati.
  • Documenti scansionati: nel caso dei file scansionati, tutto, compreso il testo, è essenzialmente un’immagine. A rendere le cose ancora più difficili è che le immagini scansionate di rado sono perfettamente allineate e spesso presentano variazioni nella consistenza della carta e nello sfondo. Tradurre in modo accurato e ricreare esattamente il layout è perciò una sfida non da poco.

L’approccio attuale non funziona

In passato, la traduzione di documenti si basava sull’estrazione del testo dall’XML all’interno di un file docx, sulla sua traduzione mantenendo il markup e sul reinserimento del testo tradotto. Per i file docx questo approccio funziona piuttosto bene perché i dati strutturati consentono di modificare il testo, lasciando intatto il layout originale. 

Ma per altri documenti, come i file PDF scansionati, il processo è meno affidabile. La conversione e l’estrazione del testo, seguite dalla traduzione e dal reinserimento, spesso portano a immagini imperfette, testo disallineato e caratteri non corrispondenti.

La svolta di DeepL: dalla traduzione alla ricostruzione

Dopo alcuni mesi intensi passati a chiedersi come risolvere questo problema, il team di DeepL ha ideato un approccio fondamentalmente diverso, che abbiamo definito “ricostruzione”. 

Anziché limitarsi a preservare la struttura esistente del documento, questo nuovo metodo osserva il layout, ne ricava informazioni dettagliate, memorizza i dati e poi li usa insieme al testo estratto per ricostruire completamente il documento, scartando di fatto il vecchio documento. 

Questo cambiamento di paradigma non solo rappresenta un passo avanti significativo dal punto di vista tecnologico, ma crea anche nuove opportunità per l’elaborazione e la consegna dei documenti.

Come funziona la ricostruzione dei documenti?   

Il primo passo per ottenere questo risultato è convertire ogni pagina in un’immagine. Queste immagini vengono poi analizzate tramite la tecnologia avanzata dei modelli linguistici visivi (VLM, Vision Language Models). A differenza dei tradizionali metodi di riconoscimento ottico dei caratteri (OCR), i VLM non si limitano a identificare i singoli caratteri isolatamente, ma comprendono il contesto più ampio del documento, proprio come fanno gli esseri umani durante la lettura. Quando ti imbatti in una parola sbavata in un contratto sbiadito o in una voce parzialmente leggibile in una tabella scansionata, spesso puoi capire cosa dice comprendendo il testo circostante e la struttura del documento. I VLM funzionano in modo simile, usando indizi contestuali per ottenere una maggiore precisione nell’estrazione del testo, soprattutto quando la qualità dell’immagine è bassa o il layout del documento è complesso.

Questa comprensione contestuale si traduce in vantaggi concreti per le aziende: meno correzioni manuali dopo l’elaborazione, estrazione dei dati più affidabile da documenti difficili come contratti datati o scansioni a bassa risoluzione e prestazioni nettamente migliori su dati strutturati come tabelle e moduli, dove l’OCR tradizionale spesso ha difficoltà con le singole celle. Solo interpretando correttamente il contenuto di partenza si può generare una traduzione affidabile.

Questo approccio non solo cattura il testo, ma anche informazioni come i riquadri di delimitazione del testo, i dettagli sulle immagini di sfondo e altre euristiche di layout. Una volta tradotto il testo, tutti questi dati dettagliati (la traduzione abbinata alle informazioni sul layout del documento) vengono inseriti nel potente motore di rendering.  

Un nuovo motore per un nuovo tipo di lavoro  

Una delle sfide più grandi che abbiamo dovuto superare è stata la creazione di un nuovo motore di rendering. I documenti presentano una vasta gamma di formati da considerare, dal semplice testo scorrevole su sfondo bianco delle lettere alle complesse tabelle dei report finanziari, dalle figure e dai grafici con etichette nei documenti di ricerca ai complessi layout grafici delle brochure colorate. 

Dopo che il testo è stato tradotto, tutti questi diversi componenti devono essere ricostruiti nella nuova lingua nel modo più fedele possibile. DeepL si avvale di una serie di tecnologie per riassemblare le informazioni precedentemente estratte e adattare il layout al testo tradotto. Un aspetto importante di questo processo è la regolazione delle dimensioni dei caratteri per adattarsi alle diverse lunghezze dei testi originali e tradotti. Nella fase finale, il motore compila tutte le pagine in un nuovo PDF e lo consegna all’utente all’istante.

Traduzione multimodale con l’IA

Questo approccio di “ricostruzione” è fondamentale per l’espansione di DeepL nei contenuti multimodali, che coprono contenuti in diversi formati, tra cui testo semplice, audio, immagini, video ed elementi interattivi, consentendo la traduzione di una gamma più ampia di contenuti oltre ai file puramente testuali. Convertendo i documenti in immagini e impiegando poi i VLM per estrarre il contenuto oltre il semplice rilevamento del testo, comprese le informazioni complete sul layout, DeepL è ora in grado di fornire traduzioni accurate e di alta qualità di una gamma molto più ampia di documenti e immagini scansionati, formati che in precedenza erano difficili da elaborare, preservando al contempo l’integrità visiva. La modularità di questi passaggi apre anche interessanti possibilità per la creazione di documenti da altre fonti.

Il progetto VLM rappresenta un progresso fondamentale nelle capacità di traduzione dei documenti di DeepL. Adottando l’approccio della “ricostruzione” e sfruttando tecnologie VLM e OCR all’avanguardia, non solo stiamo rendendo possibile la traduzione accurata di documenti visivamente complessi, come immagini e PDF scansionati, ma stiamo anche gettando le basi per soluzioni altamente personalizzabili e basate su flussi di lavoro. Questa iniziativa sottolinea l’impegno di DeepL nel superare i limiti dell’IA linguistica, garantendo ai nostri utenti l’accesso agli strumenti di traduzione più versatili e potenti disponibili e aprendo la strada a nuove applicazioni e a una più profonda integrazione in diversi flussi di lavoro professionali.

Condividi

Segui i nostri sviluppi

Scopri in anteprima il futuro dell’IA.