DeepL AI Labs
Los nuevos productos y soluciones que estamos creando en DeepL AI Labs son posibles gracias a nuestra larga colaboración con NVIDIA. El último hito de esta colaboración ha sido la implementación por parte de DeepL del primer NVIDIA DGX SuperPOD con sistemas DGX GB200 en Europa a principios de este año. Este nuevo superordenador está abriendo nuevas posibilidades para el entrenamiento y la implementación de soluciones de IA.
Hemos llamado a nuestro nuevo NVIDIA SuperPOD DeepL Arion. Utiliza la arquitectura Grace Blackwell de NVIDIA, que conecta entre sí «islas» de 72 potentes GPU Blackwell para que puedan actuar como una sola unidad. Cuantas más GPU conecta un SuperPOD de esta manera, mayor es su potencia, y Arion es mucho más potente incluso que nuestro superordenador NVIDIA anterior, Mercury. Mercury habría tardado 193 días en traducir todo Internet. Si le diéramos a Arion esta tarea hipotética, la gestionaría más de 10 veces más rápido, ¡en poco más de 18 días!
Traducir la red mundial suena impresionante, pero lo que Arion significa para nuestra capacidad de entrenar modelos de lenguaje grandes (LLM) es aún más significativo. En pocas palabras, cuanto más rápido se comuniquen las GPU, más grandes serán los modelos que podamos construir con ellas. Con Arion, podemos utilizar arquitecturas sencillas y escalables para crear LLM mucho más grandes.
Podemos entrenar estos LLM más grandes con material de aprendizaje ampliado utilizando técnicas sofisticadas que hemos desarrollado para entrenar nuestros modelos de IA lingüística. Es un enfoque probado para generar datos sintéticos que nos ha permitido mejorar continuamente la calidad de los LLM de DeepL a lo largo del tiempo, y nos ayudará a aprovechar todo el potencial de los modelos más grandes que construimos.
Las investigaciones sobre IA demuestran que, cuando se crean modelos más grandes y se entrenan con cantidades mayores de datos de alta calidad, esos modelos pueden empezar a mostrar capacidades que antes eran impredecibles.
Esto suele traducirse en un modelo que evoluciona muy rápidamente desde considerar una tarea extremadamente difícil hasta considerarla relativamente fácil. Estas capacidades emergentes recompensan a los investigadores por desafiar los límites de lo que puede hacer la IA, imaginar nuevos problemas que se pueden resolver y experimentar con nuevas formas de resolverlos. Hemos creado DeepL IA Labs para establecer una línea de trabajo para este tipo de experimentos. De este modo, apostamos de forma atrevida pero inteligente por lo que los modelos de DeepL pueden ofrecer en el futuro.
Para ello, definimos objetivos ambiciosos que sabemos que marcarán una gran diferencia en la forma de trabajar de las personas y en su productividad. A continuación, experimentamos de forma intensiva, probando ideas para nuevas funciones que puedan ayudarnos a alcanzar estos objetivos. Las capacidades emergentes significan que incluso los experimentos más ambiciosos pueden resultar sorprendentemente exitosos. Ampliar la gama de objetivos y soluciones a los que aplicamos nuestros modelos ayuda a que surjan nuevas capacidades aún más rápido.
El impacto del aumento de la potencia de cálculo y las capacidades emergentes ya está dando forma a las funciones de DeepL y a la experiencia de las personas que utilizan nuestras herramientas.
Clarify, el experto en traducción bajo demanda que sabe cuándo intervenir con preguntas inteligentes para aclarar el significado, es un ejemplo temprano de ello. Cuando los modelos pueden comprender la ambigüedad y detectar suposiciones de la misma manera que lo hace Clarify, son capaces de interactuar con los usuarios de una forma más valiosa y natural. Esto ayuda a ofrecer una experiencia de trabajo con IA más interactiva y ofrece resultados mucho más relevantes e impresionantes que un modelo que intenta razonar por sí mismo.
En un principio, desarrollamos estas capacidades interactivas para tareas de traducción, pero son igualmente valiosas para casi cualquier aplicación de IA. Al desarrollar modelos que pueden colaborar de forma más natural, inteligente y productiva con las personas, podemos ayudar a las empresas y otras organizaciones a sacar mucho más partido a la IA.
Los proyectos que están tomando forma en DeepL IA Labs exploran nuevas formas innovadoras de aprovechar ese potencial. Al hacerlo, se benefician de otro resultado de nuestra estrecha colaboración con NVIDIA para maximizar el potencial de la potencia de cálculo: una mayor velocidad de inferencia.
En términos generales, los modelos de IA más grandes tienen una mayor latencia, lo que significa que los usuarios tienen que esperar más tiempo para obtener los resultados cuando solicitan a la IA que realice una tarea. El aumento de la potencia de cálculo de Arion, junto con la habilitación por parte de NVIDIA del entrenamiento FP8 y la inferencia FP4, contribuye a cambiar esta situación. Esto significa que nuestros modelos más grandes y potentes pueden seguir realizando tareas con extrema rapidez.
Arion ayuda a los agentes de IA a realizar tareas complejas a la velocidad que los usuarios requieren. También permite llevar a cabo proyectos ambiciosos, como nuestro revolucionario planteamiento de traducción de voz a voz, que depende de la capacidad de predecir de forma inteligente lo que dicen las personas y traducirlo mientras lo dicen.
En DeepL, nunca nos ha interesado la innovación por la innovación en sí misma. Más bien, buscamos ideas innovadoras que tengan un impacto real, especialmente en lo que respecta a la experiencia laboral y personal de las personas. Las capacidades de DeepL Arion, y nuestra colaboración con NVIDIA y EcoDataCenter que las respalda, nos permiten probar una gama mucho más amplia de ideas para este tipo de impacto en el mundo real. Son estas posibilidades en rápida expansión las que hacen de DeepL IA Labs un espacio tan interesante.