DeepL AI Labs

Accédez à des traductions de haute qualité pour les documents numérisés et les contenus sous forme d’images.

Pourquoi la traduction de documents est-elle si complexe ? 

Cet été, l’une de nos équipes a relevé un défi qui préoccupe les entreprises internationales depuis des années : traduire des documents formatés tout en conservant la mise en page et le style exacts de l’original.   

Considérez la grande variété de documents que vous rencontrez quotidiennement : brochures d’entreprise, directives gouvernementales, contrats juridiques, études de recherche, etc. À première vue, cela peut sembler facile à résoudre. Après tout, les puissantes plateformes d’IA actuelles, capables d’écrire du code, d’élaborer des stratégies commerciales ou de raisonner sur des questions scientifiques complexes, devraient être en mesure de traduire et de reproduire facilement un document juridique à l’identique.

Cependant, la complexité de cette tâche devient beaucoup plus évidente lorsque l’on examine quelques exemples :

  • Longueur des mots : Imaginez la traduction d’une brochure d’entreprise de l’anglais vers le japonais. Les différences de longueur des caractères posent des défis complexes en matière d’habillage du texte autour des images, de sauts de page et de mise en page des colonnes.
  • Styles de texte et tailles de police : Les documents formatés comprennent souvent une grande variété de mises en page, de styles et de tailles : grands titres en gras, citations en italique, tableaux, symboles, etc. Ces éléments ne sont pas uniquement destinés à améliorer la lisibilité ; il s’agit de choix de conception délibérés qui reflètent le style de la marque et l’intention du document original.
  • Contenu multimodal : Un autre défi consiste à traduire du texte contenu dans des images, telles que des diagrammes et des illustrations, dans une grande variété de styles et de formats.
  • Documents numérisés : Dans le cas des fichiers numérisés, tout, y compris le texte, est essentiellement une image. Pour compliquer davantage les choses, les images numérisées sont rarement parfaitement alignées et présentent souvent des variations dans la texture du papier et l’arrière-plan. Cela pose des défis encore plus importants en matière de précision de traduction et de mise en page au pixel près.

L’approche actuelle n’est pas efficace.

Historiquement, la traduction de documents consistait à extraire le texte du XML d’un fichier Docx, à le traduire tout en conservant le balisage, puis à réinsérer le texte traduit. Pour les fichiers.docx, cette approche est particulièrement efficace, car les données structurées permettent de changer le texte tout en conservant la mise en page d’origine. 

Cependant, pour d’autres documents, tels que les fichiers PDF numérisés, le processus est moins fiable. La conversion et l’extraction de texte, suivies de sa traduction et de sa réinsertion, conduisent souvent à des images imparfaites, à un texte mal aligné et à des polices incompatibles.

La percée de DeepL : De la traduction à la reconstruction

Après plusieurs mois intenses consacrés à repenser la manière de résoudre ce problème, l’équipe DeepL a proposé une approche fondamentalement différente, que nous avons baptisée « reconstruction ». 

Plutôt que de simplement préserver la structure existante du document, cette nouvelle méthode observe la mise en page, recueille des informations détaillées à son sujet, stocke ces données, puis les utilise conjointement avec le texte extrait pour reconstruire entièrement le document, en supprimant dans les faits l’ancien document. 

Ce changement de paradigme représente non seulement un bond technologique significatif, mais crée également de nouvelles opportunités en matière de traitement et de livraison des documents.

Comment la reconstruction de documents est-elle effectuée ?   

La première étape pour y parvenir consiste à convertir chaque page en image. Ces images sont ensuite analysées à l’aide d’une technologie avancée de modèles linguistiques visuels (VLM). Contrairement aux méthodes traditionnelles de reconnaissance optique de caractères (OCR), les VLM ne se contentent pas d’identifier les caractères individuellement, mais comprennent le contexte général du document, à l’instar de la lecture humaine. Lorsque vous rencontrez un mot illisible dans un contrat défraîchi ou une entrée partiellement lisible dans un tableau numérisé, vous pouvez souvent déterminer ce qu’il signifie en comprenant le texte environnant et la structure du document. Les VLM fonctionnent de manière similaire, en utilisant des indices contextuels pour obtenir une plus grande précision dans l’extraction du texte, en particulier lorsque la qualité de l’image est faible ou que la mise en page du document est complexe.

Cette compréhension contextuelle se traduit par des avantages concrets pour les professionnels : moins de corrections manuelles après traitement, une extraction plus fiable des données à partir de documents complexes tels que les contrats anciens ou les numérisations à faible résolution, et des performances nettement améliorées sur les données structurées telles que les tableaux et les formulaires, où la reconnaissance optique de caractères traditionnelle rencontre souvent des difficultés avec les cellules individuelles. Ce n’est que lorsque le contenu est bien compris que sa traduction peut produire un résultat fiable.

Cette approche permet non seulement de capturer le texte, mais également des informations telles que les cadres de sélection du texte, les détails concernant les images d’arrière-plan et d’autres heuristiques de mise en page. Une fois le texte traduit, toutes ces données riches – la traduction associée aux informations sur la mise en page du document – sont intégrées dans le puissant moteur de rendu.  

Un nouveau moteur pour un nouveau type de travail  

L’un des principaux défis que nous avons dû relever a été la création d’un nouveau moteur de rendu. Les documents peuvent présenter une grande variété de formats, allant du simple texte courant sur fond blanc, comme les lettres, aux tableaux complexes des études financières, en passant par les figures et graphiques accompagnés de légendes dans les articles de recherche, et les mises en page graphiques complexes des brochures colorées. 

Une fois le texte traduit, tous ces différents éléments doivent être reconstitués dans la nouvelle langue de manière aussi fidèle que possible. DeepL utilise un ensemble de technologies pour réassembler les informations précédemment extraites et adapter la mise en page afin d’accueillir le texte traduit. Un aspect important consiste à ajuster la taille des polices afin de tenir compte des différences de longueur entre les textes originaux et les textes traduits. Dans la dernière étape, le moteur compile toutes les pages dans un nouveau fichier PDF et le transmet instantanément à l’utilisateur.

Développer la traduction multimodale grâce à l’IA

Cette approche de « reconstruction » est fondamentale pour l’expansion de DeepL vers le contenu multimodal, couvrant des contenus dans différents formats, notamment du texte brut, de l’audio, des images, de la vidéo et des éléments interactifs, ce qui permet l’activation de la traduction d’un éventail plus large de contenus au-delà des fichiers purement textuels. En convertissant les documents en images, puis en utilisant des moteurs de reconnaissance visuelle (VLM) pour extraire le contenu au-delà de la simple détection de texte, y compris des informations complètes sur la mise en page, DeepL permet désormais d’obtenir des traductions précises et de haute qualité pour un éventail beaucoup plus large de documents et d’images numérisés, dont les formats étaient auparavant difficiles à traiter, tout en préservant l’intégrité visuelle. La modularité de ces étapes offre également des possibilités intéressantes pour créer des documents à partir d’autres sources.

Le projet VLM représente une avancée majeure dans les capacités de traduction de documents de DeepL. En adoptant l’approche de la « reconstruction » et en tirant parti des technologies de pointe VLM et de reconnaissance optique de caractères (OCR), nous permettons non seulement la traduction précise de documents visuellement complexes, tels que des images et des PDF numérisés, mais nous posons également les bases de solutions hautement personnalisables et axées sur les processus. Cette initiative souligne l’engagement de DeepL à repousser les limites de l’IA linguistique, à garantir à nos utilisateurs l’accès aux outils de traduction les plus polyvalents et les plus puissants qui soient, et à ouvrir la voie à de nouvelles Applications et à une intégration plus poussée dans divers processus professionnels.

Partager

Restez connecté

Découvrez en avant-première nos dernières innovations en matière d’IA.