DeepL AI Labs
Neste verão, uma das nossas equipas enfrentou um desafio que tem afetado empresas internacionais há anos: traduzir documentos formatados, preservando o layout e o estilo exatos do original.
Considere a grande variedade de documentos com os quais lida diariamente: brochuras corporativas, diretrizes governamentais, contratos jurídicos, relatórios de investigação e muito mais. À primeira vista, existe uma solução simples. Afinal, as poderosas plataformas de IA atuais, capazes de escrever código, moldar estratégias empresariais ou raciocinar sobre questões científicas complexas, devem ser capazes de traduzir e reproduzir facilmente um documento jurídico para que fique idêntico ao original.
No entanto, a complexidade desta tarefa torna-se muito mais evidente quando se consideram alguns exemplos:
Até agora, os documentos eram traduzidos extraindo o texto do código XML de um ficheiro .docx, traduzindo-o com as marcações e, em seguida, reinserindo-o. Para ficheiros .docx, esta abordagem funciona muito bem, uma vez que os dados estruturados permitem alterar o texto, mantendo o layout original intacto.
No entanto, para outros documentos, como ficheiros PDF digitalizados, o processo é menos fiável. Converter e extrair texto e, depois, traduzi-lo e reinseri-lo, resulta muitas vezes em imagens imperfeitas, texto desalinhado e tipos de letra errados.
Após vários meses de reflexão intensa sobre como resolver este problema, a equipa da DeepL desenvolveu uma abordagem totalmente nova, a que chamamos "reconstrução".
Em vez de apenas preservar a estrutura do documento existente, este novo método observa o layout, recolhe informações detalhadas sobre o mesmo, armazena esses dados e, em seguida, utiliza-os juntamente com o texto extraído para reconstruir o documento na íntegra, descartando efetivamente o documentoantigo.
Esta mudança de paradigma não só representa um avanço significativo do ponto de vista tecnológico, como também cria novas oportunidades para o processamento e entrega de documentos.
O primeiro passo para que isto funcione é converter todas as páginas em imagens. Estas imagens são então analisadas utilizando tecnologia avançada de modelos de linguagem visual (VLM, Vision Language Models). Ao contrário dos métodos tradicionais de reconhecimento ótico de caracteres (OCR), os VLM não identificam apenas caracteres individuais isoladamente: compreendem o contexto mais amplo do documento, de forma muito semelhante à leitura humana. Se encontrar uma palavra ilegível num contrato desbotado ou uma entrada parcialmente legível numa tabela digitalizada, muitas vezes é possível descobrir o que está escrito com base no texto circundante e na estrutura do documento. Os VLM funcionam de forma semelhante, utilizando pistas contextuais para alcançar maior precisão na extração de texto, especialmente quando a qualidade da imagem é baixa ou o layout do documento é complexo.
Essa compreensão contextual traduz-se em benefícios concretos para as empresas: menos correções manuais após o processamento, extração de dados mais fiável de documentos complexos, como contratos antigos ou digitalizações de baixa resolução, e desempenho significativamente melhor no que respeita a dados estruturados, como tabelas e formulários, onde o reconhecimento ótico de caracteres tradicional encontra dificuldades no processamento de células individuais. Somente quando o conteúdo é compreendido de forma confiável é que a sua tradução pode produzir um resultado preciso.
Esta abordagem não captura apenas o texto, mas também informações como as caixas delimitadoras de texto, detalhes sobre imagens de fundo e outros aspetos de layout. Assim que o texto é traduzido, todos estes dados abrangentes – a tradução em conjunto com as informações sobre o layout do documento – são inseridos no potente mecanismo de renderização.
Um dos maiores desafios que tivemos de superar foi a criação de um novo motor de renderização. Os documentos apresentam uma vasta gama de formatos a considerar, desde o simples texto corrido sobre fundo branco das cartas até às complexas tabelas dos relatórios financeiros, desde as figuras e gráficos com legendas nos documentos de investigação até aos complexos layouts gráficos das brochuras coloridas.
Após a tradução do texto, todos estes diferentes componentes devem ser reconstruídos no novo idioma da forma mais fiel possível. O DeepL utiliza um conjunto de tecnologias para reorganizar as informações extraídas anteriormente e adaptar o layout para acomodar o texto traduzido. Um aspeto importante é ajustar o tamanho da letra para acomodar os diferentes comprimentos dos textos originais e traduzidos. Na fase final, o motor compila todas as páginas num novo PDF e entrega-o instantaneamente ao utilizador.
Esta abordagem de "reconstrução" é fundamental para a expansão do DeepL para conteúdos multimodais, ou seja, conteúdos em vários formatos, incluindo texto simples, áudio, imagens, vídeos e elementos interativos, permitindo a tradução de um leque mais amplo de conteúdos, para além de ficheiros de texto simples. Ao converter documentos em imagens e, em seguida, utilizar VLM para extrair conteúdos (indo além do simples reconhecimento de texto), incluindo informações completas sobre o layout, o DeepL agora permite traduções precisas e de alta qualidade de uma variedade muito maior de documentos digitalizados e imagens, formatos que antes eram difíceis de processar, mantendo a integridade visual. A modularidade destas etapas também abre possibilidades interessantes para a criação de documentos a partir de outras fontes.
O projeto VLM representa um avanço fundamental nas capacidades de tradução de documentos do DeepL. Ao adotar a abordagem de "reconstrução" e tirar proveito de tecnologias VLM e OCR de ponta, não só estamos a tornar possível a tradução precisa de documentos visualmente complexos, como imagens e PDF digitalizados, como também estamos a lançar as bases para soluções altamente personalizáveis e baseadas em fluxos de trabalho. Esta iniciativa reforça o compromisso da DeepL em expandir os limites da IA linguística, garantindo que os nossos utilizadores tenham acesso às ferramentas de tradução mais versáteis e poderosas disponíveis e abrindo caminho para novas aplicações e uma integração mais profunda em diversos fluxos de trabalho profissionais.