DeepL AI Labs
Tego lata jeden z waszych zespołów podjął się wyzwania, które od lat stanowi problem dla globalnych firm: tłumaczenia sformatowanych dokumentów z zachowaniem dokładnego układu i stylu oryginału.
Pomyśl o szerokiej gamie dokumentów, z którymi spotykasz się na co dzień: broszury firmowe, wytyczne rządowe, umowy prawne, raporty badawcze i wiele innych. Na pierwszy rzut oka może się to wydawać łatwym rozwiązaniem. W końcu dzisiejsze potężne platformy sztucznej inteligencji, które potrafią pisać kod, kształtować strategie biznesowe lub rozważać złożone kwestie naukowe, powinny być w stanie z łatwością przetłumaczyć i odtworzyć dokument prawny tak, aby wyglądał dokładnie tak samo jak oryginał.
Jednak złożoność tego zadania staje się znacznie bardziej zrozumiała, gdy rozważysz kilka przykładów:
W przeszłości tłumaczenie dokumentów polegało na wyodrębnieniu tekstu z pliku XML w formacie Docx, przetłumaczeniu go z zachowaniem znaczników, a następnie ponownym wstawieniu przetłumaczonego tekstu. W przypadku plików .docx podejście to sprawdza się całkiem dobrze, ponieważ ustrukturyzowane dane pozwalają na zmianę tekstu, pozostawiając jednocześnie nienaruszony oryginalny układ.
Jednak w przypadku innych dokumentów, takich jak zeskanowane pliki PDF, proces ten jest mniej niezawodny. Konwersja i wyodrębnianie tekstu, a następnie jego tłumaczenie i ponowne wstawianie często prowadzi do powstania niedoskonałych obrazów, niewłaściwego wyrównania tekstu i niedopasowanych czcionek.
Po kilku intensywnych miesiącach zastanawiania się nad rozwiązaniem tego problemu, zespół DeepL opracował zupełnie nowe podejście, które nazwaliśmy „rekonstrukcją”.
Zamiast jedynie zachowywać istniejącą strukturę dokumentu, ta nowa metoda obserwuje układ dokumentu, gromadzi szczegółowe informacje na jego temat, przechowuje te dane, a następnie wykorzystuje je wraz z wyodrębnionym tekstem do całkowitej rekonstrukcji dokumentu — skutecznie odrzucającstary dokument.
Ta zmiana paradygmatu stanowi nie tylko znaczący skok technologiczny, ale także stwarza nowe możliwości przetwarzania i dostarczania dokumentów.
Pierwszym krokiem do osiągnięcia tego celu jest przekształcenie każdej strony w obraz. Obrazy te są następnie analizowane przy użyciu zaawansowanej technologii modeli językowych Vision (VLM). W przeciwieństwie do tradycyjnych metod optycznego rozpoznawania znaków (OCR), technologie VLM nie tylko identyfikują poszczególne znaki w izolacji – rozumieją one szerszy kontekst dokumentu, podobnie jak ludzie podczas czytania. Gdy natrafisz na zamazane słowo w wyblakłej umowie lub częściowo czytelny wpis w zeskanowanej tabeli, często możesz odgadnąć, co ono oznacza, analizując otaczający tekst i strukturę dokumentu. VLMs działają podobnie, wykorzystując wskazówki kontekstowe w celu uzyskania większej dokładności podczas wyodrębniania tekstu, zwłaszcza gdy jakość obrazu jest niska lub układ dokumentu jest złożony.
To kontekstowe zrozumienie przekłada się na konkretne korzyści dla firm: mniej ręcznych poprawek po przetworzeniu, bardziej niezawodne pozyskiwanie danych z trudnych dokumentów, takich jak stare umowy lub skany o niskiej rozdzielczości, oraz znacznie lepsza wydajność w przypadku danych ustrukturyzowanych, takich jak tabele i formularze, gdzie tradycyjne optyczne rozpoznawanie znaków często ma problemy z poszczególnymi komórkami. Tylko wtedy, gdy treść jest dobrze zrozumiała, jej tłumaczenie może zapewnić wiarygodny wynik.
To podejście pozwala nie tylko uchwycić tekst, ale także informacje takie jak ramki ograniczające tekst, szczegóły dotyczące obrazów tła i inne heurystyki układu. Po przetłumaczeniu tekstu wszystkie te bogate dane – tłumaczenie wraz z informacjami o układzie dokumentu – są wprowadzane do potężnego silnika renderującego.
Jednym z największych wyzwań, jakie musieliśmy pokonać, było stworzenie nowego silnika renderującego. Dokumenty mogą mieć różne formaty, od prostego tekstu na białym tle, takiego jak listy, przez złożone tabele w raportach finansowych, po wykresy i diagramy z opisami w pracach naukowych oraz skomplikowane układy graficzne w kolorowych broszurach.
Po przetłumaczeniu tekstu wszystkie te elementy należy odtworzyć w nowym języku w sposób jak najbardziej wierny. DeepL wykorzystuje zestaw technologii, aby ponownie złożyć wcześniej wyodrębnione informacje i dostosować układ do przetłumaczonego tekstu. Ważnym aspektem jest dostosowanie rozmiaru czcionki do różnej długości tekstu oryginalnego i przetłumaczonego. W ostatnim kroku silnik kompiluje wszystkie strony do nowego pliku PDF i natychmiast dostarcza go do użytkownika.
To podejście oparte na „rekonstrukcji” stanowi podstawę ekspansji DeepL w kierunku treści multimodalnych — obejmujących treści w różnych formatach, w tym zwykły tekst, audio, obrazy, wideo i elementy interaktywne — umożliwiając tłumaczenie szerszego zakresu treści, wykraczającego poza pliki zawierające wyłącznie tekst. Dzięki konwersji dokumentów na obrazy, a następnie wykorzystaniu technologii VLM do wyodrębnienia treści wykraczającej poza proste wykrywanie tekstu, w tym kompleksowych informacji o układzie strony, DeepL umożliwia teraz dokładne, wysokiej jakości tłumaczenia znacznie szerszego zakresu skanowanych dokumentów i obrazów — formatów, które wcześniej były trudne do przetworzenia — przy zachowaniu integralności wizualnej. Modułowość tych kroków otwiera również ekscytujące możliwości tworzenia dokumentów z innych źródeł.
Projekt VLM stanowi przełomowy postęp w zakresie możliwości tłumaczenia dokumentów przez DeepL. Dzięki zastosowaniu podejścia opartego na „rekonstrukcji” oraz wykorzystaniu najnowocześniejszych technologii VLM i optycznego rozpoznawania znaków umożliwiamy nie tylko dokładne tłumaczenie dokumentów o złożonej strukturze wizualnej, takich jak obrazy i zeskanowane pliki PDF, ale także tworzymy podstawy dla wysoce konfigurowalnych rozwiązań opartych na cyklu pracy. Inicjatywa ta podkreśla zaangażowanie DeepL w poszerzanie granic technologii językowej AI, zapewniając wam dostęp do najbardziej wszechstronnych i wydajnych narzędzi tłumaczeniowych oraz torując drogę dla nowych aplikacji i głębszej integracji w różnych cyklach pracy profesjonalnych.