DeepL AI Labs

Traduction vocale en temps réel : comment DeepL façonne l’avenir de la communication internationale

Pour commencer : la base adéquate

Notre parcours a débuté par un défi fondamental : créer un moteur de saisie vocale qui réponde aux normes de précision de DeepL. Nous avons visé plus loin que les architectures existantes en formant avec précision des modèles propriétaires sur des données de haute qualité. Cette approche nous a permis d’obtenir un avantage concurrentiel significatif.

Nos tests internes démontrent que nos modèles atteignent un taux d’erreur par mot (Word Error Rate) de la plus haute qualité sur le marché, offrant des transcriptions plus précises que celles de nos concurrents établis. Au lieu de recourir à des évaluations publics, nous évaluons la qualité de la transcription à l’aide d’un ensemble de tests propriétaires soigneusement sélectionnés qui reflètent les cas d’utilisation professionnels qui intéressent nos clients.

[« Speech-to-Text Accuracy (Word Error Rate) of Models », comparaison du taux d’erreur WER de DeepL Voice’s plus bas à ceux d’Amazon Transcript et de Microsoft Azure AI Speech. Un score plus bas est un avantage.]

La partie difficile : élimination de la latence et de l'effet de clignotement

Une excellente transcription n’est qu’un début. La traduction en temps réel d’une transcription en constante évolution soulève des questions de recherche complexes. Lorsqu’on traduit une transcription intermédiaire, par exemple, la première partie d’une phrase plus longue, il est difficile de prévoir la suite du discours. La plupart des outils de première génération ont abordé ce problème de deux manières : soit en attendant que la phrase complète soit disponible, ce qui entraîne un temps de latence élevé pour la traduction, soit en mettant constamment à jour le résultat de la traduction, ce qui produit un effet de « clignotement » désagréable pour l’utilisateur (pour en savoir plus à ce sujet, lisez cette page).

Pour DeepL Voice, nous avons pour objectif de fournir une expérience utilisateur fluide tout en maintenant une qualité de traduction élevée et une faible latence. Grâce à notre longue expérience dans la recherche sur la traduction automatique neuronale, nous sommes particulièrement bien placés pour repousser les limites de la traduction en temps réel et fournir un flux de texte traduit d’une fluidité et d’une stabilité exceptionnelles.

Observez la différence entre ces enregistrements d’écran côte à côte de DeepL Voice for Meetings (à droite) et des traductions de Microsoft Teams (à gauche).

En concevant ce flux de texte stable, nous avons surmonté le principal obstacle à la réalisation de notre objectif principal : des conversations vocales fluides et de haute qualité. Il n’est tout simplement pas possible d’obtenir un son naturel lorsqu’il est généré à partir d’un script instable et toujours en mouvement.

La dernière étape : voix en temps réel

Avec cette clé en place, nous sommes ravis d’annoncer que le projet DeepL Voice-to-Voice est désormais en cours de développement au sein de DeepL AI Labs. Les premiers résultats sont extrêmement prometteurs. 

Conformément à notre mission qui consiste à construire l’avenir des processus IA pour les entreprises opérant à l’échelle mondiale. Il est désormais possible de fournir des traductions vocales en temps réel de haute qualité pour de nombreuses langues.

Voici un aperçu préliminaire des modèles de synthèse vocale (TTS) avec prise en charge du clonage vocal sur lesquels l’équipe de recherche travaille actuellement. Vous pouvez juger par vous-même de la qualité.

EN
Enregistrement de la voix
EN
Synthèse vocale en clonant la voix
DE
Enregistrement de la voix
DE
Synthèse vocale en clonant la voix
ES
Enregistrement de la voix
ES
Synthèse vocale en clonant la voix
ZH
Enregistrement de la voix
ZH
Synthèse vocale en clonant la voix

Cependant, un modèle TTS de qualité constitue uniquement la base d’une expérience vocale exceptionnelle. La conception d’un produit fonctionnant en temps réel nécessite bien plus : une stratégie d’inférence par morceaux, un enchaînement fluide de l’audio généré et un contrôle de la vitesse de sortie pour obtenir une latence minimale.

La qualité que vous venez d’entendre constitue désormais notre nouvelle norme. Cette technologie est au cœur de nos préoccupations, et nous partagerons davantage d’informations et d’analyses approfondies à l’approche des événements majeurs prévus plus tard dans l’année. L’avenir de la communication basée sur l’IA est à portée de main.

Partager

Restez connecté

Découvrez en avant-première nos dernières innovations en matière d’IA.