DeepL AI Labs
Neste verão no hemisfério norte, uma das nossas equipes enfrentou um desafio que atormenta as empresas internacionais há anos: traduzir documentos formatados preservando o layout e o estilo exatos do original.
Pense nos vários documentos que você encontra todos os dias: folhetos corporativos, diretrizes governamentais, contratos, relatórios de pesquisa e outros. À primeira vista, isso pode parecer um problema de fácil solução. Afinal de contas, as poderosas plataformas de IA atuais que conseguem escrever códigos, moldar estratégias empresariais ou raciocinar sobre questões científicas complexas devem ser capazes de traduzir e reproduzir com facilidade um documento jurídico igual ao original.
No entanto, a complexidade dessa tarefa fica muito mais clara quando você considera alguns exemplos:
Historicamente, a tradução de documentos se baseia em extrair texto do XML em um arquivo .docx, traduzi-lo mantendo a marcação e, em seguida, reinserir o texto traduzido. Para arquivos .docx, essa abordagem funciona muito bem, pois os dados estruturados permitem alterar o texto, deixando o layout original intacto.
Porém, para outros documentos, como arquivos PDF digitalizados, o processo é menos confiável. Converter e extrair o texto e, em seguida, traduzi-lo e reinseri-lo costuma gerar imagens imperfeitas, texto desalinhado e fontes incompatíveis.
Após alguns meses intensos reimaginando como resolver esse problema, a equipe do DeepL chegou a uma abordagem fundamentalmente diferente, que chamamos de “reconstrução”.
Em vez de simplesmente preservar a estrutura do documento, esse novo método observa qual é o layout, reúne informações detalhadas sobre ele, armazena esses dados e os utiliza juntamente com o texto extraído para reconstruir completamente o documento, descartandoo documento antigo.
Essa mudança de paradigma representa não só um salto tecnológico significativo como também cria novas formar de processar e entregar documentos.
A primeira etapa para que isso funcione é converter cada página em uma imagem. Em seguida, essas imagens são analisadas usando a tecnologia avançada de modelos de linguagem de visão (VLM). Diferentemente dos métodos tradicionais de reconhecimento óptico de caracteres (OCR), os VLMs não apenas identificam caracteres individuais isoladamente: eles entendem o contexto mais amplo do documento, da mesma forma que os seres humanos leem. Ao encontrar uma palavra borrada em um contrato desbotado ou uma entrada parcialmente legível em uma tabela digitalizada, muitas vezes é possível descobrir o que ela quer dizer compreendendo o texto ao redor e a estrutura do documento. Os VLMs funcionam de forma semelhante, usando pistas contextuais para obter maior precisão na extração do texto, especialmente quando a qualidade da imagem é baixa ou o layout do documento é complexo.
Essa compreensão contextual se traduz em benefícios concretos para as empresas: menos correções manuais após o processamento, extração mais confiável de dados de documentos desafiadores, como contratos antigos ou digitalizações de baixa resolução, e um desempenho significativamente melhor em dados estruturados, como tabelas e formulários, em que o OCR tradicional costuma encontrar dificuldades com células individuais. A tradução só pode produzir resultados confiáveis quando o conteúdo é compreendido também de forma confiável.
Essa abordagem não só captura o texto como também informações como caixas delimitadoras de texto, detalhes sobre imagens de fundo e outros aspectos de layout. Depois que o texto é traduzido, todos esses dados valiosos – a tradução e as informações sobre como o documento foi apresentado – são inseridos no poderoso mecanismo de renderização.
Um dos maiores desafios que tivemos que superar foi criar um novo mecanismo de renderização. Os documentos vêm em vários formatos, desde textos simples e fluidos em um fundo branco, como cartas, até tabelas complexas em relatórios financeiros, figuras e gráficos com legendas em relatórios de pesquisa e layouts gráficos complexos em brochuras coloridas.
Após a tradução do texto, todos esses diferentes componentes precisam ser reconstruídos no novo idioma da forma mais fiel possível. O DeepL usa um conjunto de tecnologias para remontar as informações extraídas e adaptar o layout para acomodar o texto traduzido. Um aspecto importante desse processo é ajustar o tamanho das fontes para acomodar os diferentes tamanhos dos textos originais e traduzidos. Na etapa final, o mecanismo compila todas as páginas em um novo PDF e o entrega ao usuário instantaneamente.
Essa abordagem de “reconstrução” é fundamental para a expansão do DeepL no que se refere a conteúdo multimodal, que abrange diferentes formatos, incluindo texto simples, áudio, imagens, vídeo e elementos interativos, e permite a tradução de outros arquivos além daqueles puramente baseados em texto. Ao converter documentos em imagens e, em seguida, usar VLMs para extrair o conteúdo além da simples detecção de texto, incluindo informações abrangentes sobre o layout, o DeepL agora possibilita traduções precisas e de alta qualidade de uma variedade muito maior de documentos e imagens digitalizadas – formatos que antes eram difíceis de processar – preservando a integridade visual. A modularidade dessas etapas também abre possibilidades interessantes para a criação de documentos inteiramente de outras fontes.
O projeto de VLM representa um avanço decisivo nos recursos de tradução de documentos do DeepL. Ao adotar a abordagem de “reconstrução” e aproveitar as inovadoras tecnologias de VLM e reconhecimento óptico de caracteres, estamos não só possibilitando a tradução precisa de documentos visualmente complexos, como imagens e PDFs digitalizados, mas também estabelecendo as bases para soluções altamente personalizáveis e voltadas para o fluxo de trabalho. Essa iniciativa ressalta o compromisso do DeepL em expandir os limites da IA linguística, garantindo que nossos usuários tenham acesso às ferramentas de tradução mais versáteis e poderosas disponíveis e abrindo caminho para novos aplicativos e uma integração maior em diversos fluxos de trabalho profissionais.