DeepL AI Labs

Tradução de alta qualidade de documentos digitalizados e conteúdo baseado em imagens

Por que traduzir documentos é tão difícil?

Neste verão no hemisfério norte, uma das nossas equipes enfrentou um desafio que atormenta as empresas internacionais há anos: traduzir documentos formatados preservando o layout e o estilo exatos do original.

Pense nos vários documentos que você encontra todos os dias: folhetos corporativos, diretrizes governamentais, contratos, relatórios de pesquisa e outros. À primeira vista, isso pode parecer um problema de fácil solução. Afinal de contas, as poderosas plataformas de IA atuais que conseguem escrever códigos, moldar estratégias empresariais ou raciocinar sobre questões científicas complexas devem ser capazes de traduzir e reproduzir com facilidade um documento jurídico igual ao original.

No entanto, a complexidade dessa tarefa fica muito mais clara quando você considera alguns exemplos:

Comprimento da palavra: Imagine que você esteja traduzindo um folheto corporativo do inglês para o japonês. As diferenças no comprimento dos caracteres criam desafios complexos na disposição do texto em torno de imagens, quebras de página e layouts de coluna.
Estilos de texto e tamanhos de fonte: Em geral, documentos formatados incluem vários layouts, estilos e tamanhos – títulos grandes em negrito, citações em itálico, tabelas, símbolos e outros elementos. Eles não servem apenas para facilitar a leitura: são escolhas deliberadas de design que refletem o estilo da marca e a intenção do documento original.
Conteúdo multimodal: Outro desafio é traduzir textos dentro de imagens, como diagramas e ilustrações, em variados estilos e formatos.
Documentos digitalizados: No caso de arquivos digitalizados, tudo, inclusive o texto, é essencialmente uma imagem. Para deixar o problema mais desafiador, imagens digitalizadas raramente ficam alinhadas com perfeição e muitas vezes incluem variações nas texturas e nos planos de fundo. Isso cria desafios ainda maiores para a precisão da tradução e a perfeição do layout.

A abordagem atual não está funcionando

Historicamente, a tradução de documentos se baseia em extrair texto do XML em um arquivo .docx, traduzi-lo mantendo a marcação e, em seguida, reinserir o texto traduzido. Para arquivos .docx, essa abordagem funciona muito bem, pois os dados estruturados permitem alterar o texto, deixando o layout original intacto.

Porém, para outros documentos, como arquivos PDF digitalizados, o processo é menos confiável. Converter e extrair o texto e, em seguida, traduzi-lo e reinseri-lo costuma gerar imagens imperfeitas, texto desalinhado e fontes incompatíveis.

A descoberta do DeepL: da tradução à reconstrução

Após alguns meses intensos reimaginando como resolver esse problema, a equipe do DeepL chegou a uma abordagem fundamentalmente diferente, que chamamos de “reconstrução”.

Em vez de simplesmente preservar a estrutura do documento, esse novo método observa qual é o layout, reúne informações detalhadas sobre ele, armazena esses dados e os utiliza juntamente com o texto extraído para reconstruir completamente o documento, descartandoo documento antigo.

Essa mudança de paradigma representa não só um salto tecnológico significativo como também cria novas formar de processar e entregar documentos.

Como funciona a reconstrução de documentos?

A primeira etapa para que isso funcione é converter cada página em uma imagem. Em seguida, essas imagens são analisadas usando a tecnologia avançada de modelos de linguagem de visão (VLM). Diferentemente dos métodos tradicionais de reconhecimento óptico de caracteres (OCR), os VLMs não apenas identificam caracteres individuais isoladamente: eles entendem o contexto mais amplo do documento, da mesma forma que os seres humanos leem. Ao encontrar uma palavra borrada em um contrato desbotado ou uma entrada parcialmente legível em uma tabela digitalizada, muitas vezes é possível descobrir o que ela quer dizer compreendendo o texto ao redor e a estrutura do documento. Os VLMs funcionam de forma semelhante, usando pistas contextuais para obter maior precisão na extração do texto, especialmente quando a qualidade da imagem é baixa ou o layout do documento é complexo.

Essa compreensão contextual se traduz em benefícios concretos para as empresas: menos correções manuais após o processamento, extração mais confiável de dados de documentos desafiadores, como contratos antigos ou digitalizações de baixa resolução, e um desempenho significativamente melhor em dados estruturados, como tabelas e formulários, em que o OCR tradicional costuma encontrar dificuldades com células individuais. A tradução só pode produzir resultados confiáveis quando o conteúdo é compreendido também de forma confiável.

Essa abordagem não só captura o texto como também informações como caixas delimitadoras de texto, detalhes sobre imagens de fundo e outros aspectos de layout. Depois que o texto é traduzido, todos esses dados valiosos – a tradução e as informações sobre como o documento foi apresentado – são inseridos no poderoso mecanismo de renderização.

Um novo mecanismo para um novo tipo de trabalho

Um dos maiores desafios que tivemos que superar foi criar um novo mecanismo de renderização. Os documentos vêm em vários formatos, desde textos simples e fluidos em um fundo branco, como cartas, até tabelas complexas em relatórios financeiros, figuras e gráficos com legendas em relatórios de pesquisa e layouts gráficos complexos em brochuras coloridas.

Após a tradução do texto, todos esses diferentes componentes precisam ser reconstruídos no novo idioma da forma mais fiel possível. O DeepL usa um conjunto de tecnologias para remontar as informações extraídas e adaptar o layout para acomodar o texto traduzido. Um aspecto importante desse processo é ajustar o tamanho das fontes para acomodar os diferentes tamanhos dos textos originais e traduzidos. Na etapa final, o mecanismo compila todas as páginas em um novo PDF e o entrega ao usuário instantaneamente.

Tradução multimodal com IA

Essa abordagem de “reconstrução” é fundamental para a expansão do DeepL no que se refere a conteúdo multimodal, que abrange diferentes formatos, incluindo texto simples, áudio, imagens, vídeo e elementos interativos, e permite a tradução de outros arquivos além daqueles puramente baseados em texto. Ao converter documentos em imagens e, em seguida, usar VLMs para extrair o conteúdo além da simples detecção de texto, incluindo informações abrangentes sobre o layout, o DeepL agora possibilita traduções precisas e de alta qualidade de uma variedade muito maior de documentos e imagens digitalizadas – formatos que antes eram difíceis de processar – preservando a integridade visual. A modularidade dessas etapas também abre possibilidades interessantes para a criação de documentos inteiramente de outras fontes.

O projeto de VLM representa um avanço decisivo nos recursos de tradução de documentos do DeepL. Ao adotar a abordagem de “reconstrução” e aproveitar as inovadoras tecnologias de VLM e reconhecimento óptico de caracteres, estamos não só possibilitando a tradução precisa de documentos visualmente complexos, como imagens e PDFs digitalizados, mas também estabelecendo as bases para soluções altamente personalizáveis e voltadas para o fluxo de trabalho. Essa iniciativa ressalta o compromisso do DeepL em expandir os limites da IA linguística, garantindo que nossos usuários tenham acesso às ferramentas de tradução mais versáteis e poderosas disponíveis e abrindo caminho para novos aplicativos e uma integração maior em diversos fluxos de trabalho profissionais.

Fique por dentro

Confira prévias das nossas inovações em IA mais recentes.