Das Besondere an Sprachübersetzungen – und wie man auch die größten Sprachbarrieren überwinden kann

Menschen sprechen nicht so, wie sie schreiben. Und sie erleben Gespräche nicht so, wie sie eine E-Mail oder einen Artikel lesen. Unsere Fähigkeit, einander im Moment des Sprechens zu verstehen – indem wir alle Arten der verbalen und nonverbalen Kommunikation zusammenführen, um zu begreifen, was jemand meint – ist der Hochseilakt der menschlichen Ausdrucksweise. Tritt man einen Schritt zurück und betrachtet, was in einem Gespräch geschieht, ist es erstaunlich, wie viele Informationen in kürzester Zeit vermittelt werden. 

Wenn man sich die Aufgabe stellt, gesprochene Interaktionen in Echtzeit zu übersetzen, wie DeepL es mit seiner Lösung DeepL Voice getan hat, gewinnt man faszinierende Einblicke in die Unterschiede zwischen der Übersetzung gesprochener Sprache und der Übersetzung von Text. In diesem Beitrag werde ich einige dieser Erkenntnisse vorstellen und erklären, wie wir sie nutzen, um die Qualität von Meetings und Gesprächen zu verbessern.

Herausforderungen bei der Echtzeitübersetzung von Sprache und unsere Lösung

Sofortige, dialogorientierte Kommunikation ist eine grundlegend menschliche Fähigkeit, die sich mit Technologie nur sehr schwer nachbilden lässt – selbst mit einer so fortschrittlichen Technologie wie KI. Wenn Sie Unternehmenslösungen entwickeln möchten, mit denen Menschen Gespräche in mehreren Sprachen verfolgen und daran teilnehmen können, müssen Sie zunächst ein tiefgreifendes Verständnis für die damit verbundenen Herausforderungen entwickeln.

Zu diesen Herausforderungen gehört die Nachahmung der menschlichen Fähigkeit, zu antizipieren, was Menschen sagen, bevor sie ihren Satz beendet haben. Wenn Sie Sprache in Echtzeit übersetzen, müssen Sie auch vorhersehen, wie die Worte einer Person am besten in einer anderen Sprache ausgedrückt werden können. Entscheidend ist jedoch, dass Sie dies bereits tun, bevor Sie genau wissen, wie der ursprüngliche Satz endet, um große Zeitverzögerungen zu vermeiden. Die Herausforderung dabei ist, dass eine scheinbar korrekte Übersetzung einiger Wörter sich als ungenau erweisen kann, sobald die Person ihren Satz beendet hat. 

Als wir mit der Entwicklung von DeepL Voice begannen, wussten wir, dass eine hochwertige Echtzeitübersetzung von Gesagtem nicht allein durch Technologie erreicht werden kann. Sie erfordert ein tiefes Interesse an und Verständnis für die verschiedenen Funktionsweisen von Sprache. Deshalb haben wir Sprachexperten zusammengebracht und das umfassende Kontextverständnis von DeepL hinsichtlich der Funktionsweise verschiedener Sprachen genutzt. Außerdem haben wir mit Unternehmen zusammengearbeitet, um ihre Anforderungen und die für sie wichtigsten Aspekte der Sprachübersetzung zu ermitteln.

Bedeutung einer Sekunde

Eine der ersten Erkenntnisse, die wir gewonnen haben, ist, dass das Timing bei der Echtzeitübersetzung eines Meetings oder einer Unterhaltung entscheidend ist. Wenn man sich der Geschwindigkeit der Sprache annähern kann – indem man die Übersetzung eines Satzes anzeigt, sobald der Sprecher ihn beendet hat –, kann man einen großen Einfluss darauf nehmen, wie inklusiv diese Meetings sein können. 

Wie Christine Aubry, Internationalization Coordinator des globalen Patisserie-Herstellers Brioche Pasquier, bei DeepL Dialogues erklärte, wechseln Menschen durch schnellere Übersetzungen von passiver zu aktiver Teilnahme. Anstatt sich damit abzumühen, mit dem, was andere in einer anderen Sprache sagen, Schritt zu halten, fühlen sie sich voll und ganz im Bilde. Wie ein Muttersprachler haben sie die Möglichkeit, sich einzuschalten, das Gespräch zu gestalten und aktiv teilzunehmen. Eine Sekunde macht einen großen Unterschied.

Geschwindigkeit hat daher bei der Echtzeitübersetzung oberste Priorität. Sie muss jedoch gegen andere Prioritäten abgewogen werden, die ebenfalls einen großen Einfluss auf das Benutzererlebnis haben. Übersetzungen müssen so genau wie möglich sein, um Missverständnisse und Verwirrung zu vermeiden. Und wo immer möglich, müssen Übersetzungen das „Flackern“ minimieren, das auftritt, wenn zuvor übersetzter Text korrigiert werden muss, weil sich die Bedeutung geändert hat. Je geringer dieses Flackern ist, desto leichter fällt es jemandem, einem Gespräch auf natürliche Weise zu folgen.

Veränderung der Sprache beim Sprechen im Vergleich zum Tippen

Um Gespräche genau zu übersetzen, ist es wichtig, die vielen Unterschiede zwischen den Mustern der Schriftsprache und den Rhythmen der gesprochenen Sprache zu verstehen. Beispielsweise ist die Art und Weise, wie Menschen sprechen, viel individueller und weniger konsistent als die Art und Weise, wie sie schreiben. Sie verwenden unterschiedliche Redewendungen und Umgangssprache, die sowohl aus regionalen Dialekten als auch aus ihrer besonderen Persönlichkeit oder ihrem Selbstbild stammen können. Darüber hinaus konstruieren und korrigieren Menschen Sätze während des Sprechens, was zu Aussetzern führt, bei denen auf einen grammatikalisch falschen Begriff sofort ein anderer, korrekterer folgt. Diese wörtlich in der Übersetzung wiederzugeben, ist für jemanden, der die Bedeutung verstehen möchte, nicht hilfreich. 

Während eines Gesprächs geben Menschen auch kurze Bekräftigungen von sich – wie „Mhm“ –, um dem Sprecher zu versichern, dass sie das Gesagte verstehen oder ihm zustimmen. Diese helfen zwar dem Gesprächsfluss, erschweren aber die Übersetzung für Menschen, die versuchen, dem Gespräch in einer anderen Sprache zu folgen. Es ist daher hilfreich, diese Elemente der gesprochenen Sprache aus einer Übersetzung herauszufiltern.

Optimierung für Echtzeitübersetzungen

Die Herausforderung wird noch interessanter, wenn man bedenkt, dass eine Plattform für Echtzeitübersetzungen keine vollständigen Sätze übersetzt. Sie muss einen Satz übersetzen, während er gesprochen wird, wobei die endgültige Bedeutung dieses Satzes noch nicht klar ist. Dies erfordert eine etwas andere Art der Übersetzungsoptimierung. Wir wollen nicht nur die genaueste Übersetzung, sondern eine genaue Übersetzung, die flexibel genug ist, um neue Informationen einzubeziehen, die die Bedeutung des Gesagten verändern könnten.

Hier ein Beispiel: Stellen Sie sich vor, wir übersetzen ein virtuelles Meeting, in dem einer der Teilnehmer Englisch spricht und einer der anderen Teilnehmer das Gesagte mit Untertiteln auf Deutsch verfolgt. Unser englischer Sprecher unterbricht das Gespräch und sagt: „I found it.“ Wenn wir nun davon ausgehen, dass dies ein vollständiger Satz ist, wäre die bestmögliche deutsche Übersetzung: „Ich habe es gefunden.“ Da es sich jedoch um eine Live-Aussage handelt, können wir nicht sicher sein, ob der Satz vollständig ist oder nicht.

In diesem Fall wäre es besser, stattdessen eine Übersetzung wie „Ich fand es“ zu verwenden. Warum? Wenn der englische Sprecher fortfährt mit „I found it frustrating“, kann die Übersetzung „Ich fand es“ einfach durch das Wort „frustrierend“ ergänzt werden. Würden die ersten drei Wörter mit „Ich habe es gefunden“ übersetzt, müsste die gesamte Übersetzung überarbeitet werden. Das ist die Art von „Flackern“, die das intuitive Verfolgen eines Gesprächs behindert und die DeepL so weit wie möglich minimieren möchte.

Eine genaue Echtzeitübersetzung von Sprache erfordert eine Vielzahl solcher kontextbezogener Entscheidungen, die am besten getroffen werden, wenn die Technologie von menschlichem Fachwissen geleitet wird. Zu diesem Fachwissen gehört auch das Verständnis dafür, wo verschiedene Sprachen die Verben positionieren, die für die Bedeutung eines Satzes entscheidend sind. Wenn sie am Anfang stehen (wie im Französischen und Spanischen), kann die Übersetzung schneller angezeigt werden als wenn sie am Ende stehen. All dies hilft einem System, gerade so lange zu pausieren, dass es genau ist, aber nicht so lange, dass es das Verständnis unnötig verzögert.

Suche nach dem „Sweet Spot“ durch sprachspezifisches Verständnis

Dank der Kombination aus menschlicher Sprachkompetenz und präziser Übersetzung kann DeepL Voice schon jetzt die Meetings und Gespräche internationaler Unternehmen erheblich verbessern. Dazu gehört auch die NEC Corporation, die DeepL Voice bereits wenige Wochen nach der offiziellen Markteinführung als erstes Unternehmen vollständig implementiert hat. 

Die Begeisterung für DeepL Voice zeigt, dass dies ein bahnbrechender Moment für die Sprachübersetzung ist. Die Möglichkeit, Äußerungen zu analysieren und zu übersetzen, noch während sie gesprochen werden, steigert den Wert, den wir für internationale Unternehmen schaffen können. Es verändert die Art und Weise, wie Teams zusammenarbeiten, stärkt Beziehungen und stellt sicher, dass unterschiedliche Ideen und Perspektiven berücksichtigt werden. 

Die Fortschritte, die wir bisher erzielt haben, verändern die Arbeitsweise von Unternehmen bereits erheblich. Und wir haben noch viel mehr vor!

Teilen