DeepL AI Labs

Traducción de voz a voz en tiempo real: Cómo DeepL está dando forma al futuro de la comunicación internacional

Para empezar: la base adecuada

Nuestra trayectoria comenzó cuando afrontamos un reto fundamental: crear un motor de voz a texto que cumpliera con el estándar de precisión de DeepL. Fuimos más allá de las arquitecturas existentes y desarrollamos modelos propios mediante un proceso de entrenamiento avanzado y refinamiento de datos de alta calidad. Este enfoque ha proporcionado una clara ventaja en cuanto al rendimiento.

Nuestros parámetros de referencia internos muestran que nuestros modelos alcanzan una tasa de error de palabras (WER) líder en el mercado, lo que se traduce en transcripciones más precisas que las de competidores consolidados. En lugar de utilizar referencias públicas, evaluamos la calidad de la transcripción con un conjunto de pruebas propio cuidadosamente seleccionado que refleja los casos de uso empresarial que interesan a nuestros clientes.

[«Precisión de la función de traducción de voz a texto (tasa de error por palabra) de los modelos», comparando la menor tasa de error por palabra (WER) de DeepL Voice con Amazon Transcript y Microsoft Azure AI Speech. El valor más bajo es el mejor.]

La parte difícil: eliminación de la latencia y el parpadeo

Una buena transcripción es solo el principio. Traducir una transcripción en tiempo real que va cambiando plantea cuestiones de investigación complejas. Al traducir una transcripción intermedia —imagina, por ejemplo, la primera parte de una frase más larga—, es difícil saber cómo continuará el hablante. La mayoría de las herramientas de primera generación han abordado este problema de dos maneras: o bien esperando hasta que la frase completa esté disponible, lo que conlleva una gran latencia en la traducción, o bien actualizando constantemente el resultado de la traducción, lo que produce una experiencia de usuario desagradable, con un «parpadeo» constante (más información al respecto aquí).

Con DeepL Voice, aspiramos a ofrecer una experiencia de usuario fluida, manteniendo al mismo tiempo una alta calidad de traducción y una baja latencia. Gracias a nuestra amplia experiencia de investigación en el campo de la traducción automática neuronal, nos encontramos en una posición privilegiada para desafiar los límites de la traducción en tiempo real y ofrecer un flujo de texto traducido excepcionalmente fluido y estable.

Observa la diferencia que supone en estas grabaciones de pantalla comparativas de DeepL Voice for Meetings (a la derecha) y las traducciones de Microsoft Teams (a la izquierda).

Al diseñar este flujo de texto estable, resolvimos el principal obstáculo para alcanzar el verdadero objetivo: conversaciones voz a voz sin esfuerzo y de alta calidad. Una salida de audio con un sonido natural simplemente no es posible cuando se genera a partir de un script inestable y parpadeante.

El último paso: voz en tiempo real

Tras implementar este paso, nos complace anunciar que el proyecto DeepL Voice-to-Voice se encuentra ahora en fase de desarrollo activo dentro de DeepL IA Labs. Los resultados iniciales son increíblemente prometedores.

En línea con nuestra misión de construir el futuro de los flujos de trabajo de IA para empresas que operan en todo el mundo, ahora es posible ofrecer traducciones de voz en tiempo real y de alta calidad para muchos idiomas.

Aquí tienes un avance preliminar de los modelos de texto a voz (TTS) con soporte para la clonación de voz en los que está trabajando actualmente nuestro equipo de investigación. Puedes juzgar la calidad de primera mano.

Muestra de voz

TTS con clonación de voz

Muestra de voz

TTS con clonación de voz

Muestra de voz

TTS con clonación de voz

Muestra de voz

TTS con clonación de voz

Muestra de voz

TTS con clonación de voz

Muestra de voz

TTS con clonación de voz

Muestra de voz

TTS con clonación de voz con DeepL Voice

Muestra de voz

TTS con clonación de voz con DeepL Voice

Sin embargo, un buen modelo TTS es solo la base para una excelente experiencia de voz a voz. Crear un producto que funcione en tiempo real requiere mucho más: una estrategia para la inferencia por fragmentos, un encadenamiento perfecto del audio generado y un control de la velocidad de salida para lograr una latencia mínima.

La calidad que acabas de escuchar es nuestro nuevo punto de partida. Esta tecnología es uno de nuestros principales objetivos, y compartiremos más avances y análisis detallados a medida que se acerquen los grandes eventos de finales de este año. ¡El futuro de la comunicación basada en IA está a la vuelta de la esquina!

No te pierdas nada

Echa un vistazo a nuestras últimas innovaciones en IA.

Traducción de voz a voz en tiempo real: Cómo DeepL está dando forma al futuro de la comunicación internacional

Para empezar: la base adecuada

La parte difícil: eliminación de la latencia y el parpadeo

El último paso: voz en tiempo real

Compartir

No te pierdas nada