DeepL AI Labs

Accede a traducciones de alta calidad para documentos escaneados y contenido basado en imágenes.

¿Por qué es tan difícil la traducción de documentos? 

Este verano, uno de nuestros equipos asumió un reto que ha perseguido a las empresas internacionales durante años: traducir documentos formateados conservando exactamente el mismo diseño y estilo que el original.   

Piensa en la gran variedad de documentos con los que te encuentras cada día: folletos corporativos, directrices gubernamentales, contratos legales, informes de investigación y mucho más. A primera vista, esto podría parecer una solución fácil. Después de todo, las potentes plataformas de IA actuales, capaces de escribir código, diseñar estrategias empresariales o razonar sobre cuestiones científicas complejas, deberían ser capaces de traducir y reproducir fácilmente un documento jurídico para que sea idéntico al original.

Pero la complejidad de esta tarea se hace mucho más evidente cuando se analizan algunos ejemplos:

  • Longitud de palabra: imagina traducir un folleto corporativo del inglés al japonés. Las diferencias en la longitud de los caracteres crean retos complejos a la hora de ajustar el texto alrededor de las imágenes, los saltos de página y los diseños de columnas.
  • Estilos de texto y tamaños de fuente: los documentos formateados suelen incluir una amplia variedad de diseños, estilos y tamaños: titulares grandes en negrita, citas en cursiva, tablas, símbolos y mucho más. No se trata solo de facilitar la lectura, sino de decisiones de diseño deliberadas que reflejan el estilo de la marca y la intención del documento original.
  • Contenido multimodal: otro reto es traducir texto dentro de imágenes, como diagramas e ilustraciones, en una amplia variedad de estilos y formatos.
  • Documentos escaneados: en el caso de los archivos escaneados, todo, incluido el texto, es esencialmente una imagen. Para complicar aún más las cosas, las imágenes escaneadas rara vez están perfectamente alineadas y a menudo incluyen variaciones en las texturas del papel y los fondos. Esto plantea retos aún mayores para la precisión de la traducción y el diseño con píxeles perfectos.

El enfoque actual no está funcionando

Históricamente, la traducción de documentos se ha basado en extraer el texto del XML dentro de un archivo .docx, traducirlo conservando el marcado y, a continuación, volver a insertar el texto traducido. En el caso de los archivos .docx, este método funciona bastante bien, ya que los datos estructurados permiten cambiar el texto sin alterar el diseño original. 

Sin embargo, para otros documentos, como archivos PDF escaneados, el proceso es menos fiable. Convertir y extraer texto, y luego traducirlo y volver a insertarlo, a menudo da lugar a imágenes imperfectas, texto desalineado y fuentes que no coinciden.

El gran avance de DeepL: de la traducción a la reconstrucción

Tras unos meses intensos dedicados a replantearse cómo resolver este problema, el equipo de DeepL ideó un enfoque fundamentalmente diferente, al que hemos denominado «reconstrucción». 

En lugar de limitarse a conservar la estructura del documento existente, este nuevo método observa cuál es el diseño, recopila información detallada al respecto, almacena estos datos y, a continuación, los utiliza junto con el texto extraído para reconstruir completamente el documento, descartando de forma efectivael documento antiguo. 

Este cambio de paradigma no solo representa un importante avance tecnológico, sino que también crea nuevas oportunidades para el procesamiento y la entrega de documentos.

¿Cómo funciona la reconstrucción de documentos?   

El primer paso para que esto funcione es convertir cada página en una imagen. A continuación, estas imágenes se analizan utilizando tecnología avanzada de modelos de lenguaje visual (VLM). A diferencia de los métodos tradicionales de reconocimiento óptico de caracteres (OCR), los VLM no solo identifican caracteres individuales de forma aislada, sino que comprenden el contexto más amplio del documento, de forma muy similar a como leen los seres humanos. Cuando te encuentras con una palabra borrosa en un contrato descolorido o una entrada parcialmente legible en una tabla escaneada, a menudo puedes averiguar lo que dice entendiendo el texto circundante y la estructura del documento. Los VLM funcionan de manera similar, utilizando pistas contextuales para lograr una mayor precisión en la extracción de texto, especialmente cuando la calidad de la imagen es baja o el diseño del documento es complejo.

Esta comprensión contextual se traduce en beneficios concretos para las empresas: menos correcciones manuales tras el procesamiento, una extracción de datos más fiable a partir de documentos difíciles (como contratos antiguos o escaneos de baja resolución) y un rendimiento significativamente mejor en datos estructurados (como tablas y formularios), en los que el reconocimiento óptico de caracteres tradicional suele tener dificultades con las celdas individuales. Solo cuando el contenido se comprende de forma fiable, su traducción puede producir un resultado fiable.

Este enfoque no solo captura el texto, sino también información como los cuadros delimitadores del texto, detalles sobre las imágenes de fondo y otras heurísticas de diseño. Una vez traducido el texto, todos estos datos enriquecidos (la traducción junto con la información sobre el diseño del documento) se introducen en el potente motor de renderización.  

Un nuevo motor para un nuevo tipo de trabajo  

Uno de los mayores retos que tuvimos que superar fue crear un nuevo motor de renderizado. Los documentos pueden tener una gran variedad de formatos, desde simples textos con fondo blanco, como cartas, hasta tablas complejas en informes financieros, pasando por figuras y gráficos con etiquetas en trabajos de investigación y complejos diseños gráficos en folletos a todo color. 

Una vez traducido el texto, todos estos componentes deben reconstruirse en el nuevo idioma de la forma más fiel posible. DeepL utiliza un conjunto de tecnologías para reensamblar la información extraída previamente y adaptar el diseño para acomodar el texto traducido. Un aspecto importante de esto es ajustar el tamaño de la fuente para adaptarse a las diferentes longitudes de los textos originales y traducidos. En el último paso, el motor compila todas las páginas en un nuevo PDF y lo envía al usuario de forma instantánea.

Aprovechar la traducción multimodal con IA

Este enfoque de «reconstrucción» es fundamental para la expansión de DeepL hacia contenidos multimodales, que abarcan contenidos en diferentes formatos —como texto sin formato, audio, imágenes, vídeo y elementos interactivos—, lo que permite traducir una gama más amplia de contenidos más allá de los archivos puramente textuales. Al convertir documentos en imágenes y luego utilizar VLM para extraer el contenido más allá de la simple detección de texto, incluida información completa sobre el diseño, DeepL garantiza traducciones precisas y de alta calidad de una gama mucho más amplia de documentos e imágenes escaneados (antes difíciles de procesar), al tiempo que se preserva la integridad visual. La modularidad de estos pasos también abre interesantes posibilidades para crear documentos a partir de otras fuentes completamente diferentes.

El proyecto VLM representa un avance fundamental en las capacidades de traducción de documentos de DeepL. Al adoptar el enfoque de «reconstrucción» y aprovechar las tecnologías VLM y de reconocimiento óptico de caracteres (OCR) de vanguardia, no solo permitimos la traducción precisa de documentos visualmente complejos —como imágenes y PDF escaneados—, sino que también sentamos las bases para soluciones altamente personalizables y basadas en flujos de trabajo. Esta iniciativa subraya el compromiso de DeepL de desafiar los límites de la IA lingüística, garantizar que nuestros usuarios tengan acceso a las herramientas de traducción más versátiles y potentes disponibles, y allanar el camino para nuevas aplicaciones y una integración más profunda en diversos flujos de trabajo profesionales.

Compartir

No te pierdas nada

Echa un vistazo a nuestras últimas innovaciones en IA.