DeepL AI Labs
A nossa jornada começou com um desafio fundamental: criar um mecanismo de conversão de voz em texto que atendesse ao padrão de precisão da DeepL. Fomos além das arquiteturas existentes, desenvolvendo modelos proprietários por meio de um processo avançado de treino e refinamento de dados de alta qualidade. Esta abordagem proporcionou uma clara vantagem em termos de desempenho.
Os nossos benchmarks internos demonstram que os nossos modelos alcançam uma taxa de erro de palavras (WER, Word Error Rate) líder de mercado, fornecendo transcrições mais precisas do que os concorrentes estabelecidos. Em vez de benchmarks públicos, avaliamos a qualidade da transcrição num conjunto de testes exclusivos, cuidadosamente selecionados, que refletem os casos de uso empresariais que interessam aos nossos clientes.
["Speech-to-Text Accuracy (Word Error Rate) of Models", que compara o WER mais baixo do DeepL Voice com o Amazon Transcript e o Microsoft Azure AI Speech. Um valor mais baixo é um dado positivo.]
Uma excelente transcrição é apenas o início. A tradução de uma transcrição que se desenvolve em tempo real levanta questões de investigação complexas. Ao traduzir uma transcrição preliminar (por exemplo, a primeira parte de uma frase mais longa ) é difícil saber como o orador irá continuar. A maioria das ferramentas de primeira geração abordou este problema de duas maneiras: ou aguardando até que a frase completa estivesse disponível, o que leva a uma alta latência na tradução, ou atualizando constantemente o resultado da tradução, o que produz uma experiência desagradável de "instabilidade" para o utilizador (leia mais sobre isto aqui).
Para o DeepL Voice, temos a ambição de proporcionar uma experiência do utilizador fluida, mantendo uma elevada qualidade de tradução e baixa latência. Com a nossa longa experiência em investigação na área da tradução automática neuronal, estamos numa posição única para expandir os limites da tradução em tempo real e fornecer um fluxo de texto traduzido excecionalmente suave e estável.
Veja a diferença nestas gravações lado a lado do DeepL Voice for Meetings (à direita) e das traduções do Microsoft Teams (à esquerda).
Ao projetar este fluxo de texto estável, resolvemos o principal obstáculo ao verdadeiro objetivo: interações orais fluidas e de alta qualidade. Não é possível produzir um áudio com som natural quando ele é gerado por um script instável e intermitente.
Com esta etapa implementada, temos o prazer de anunciar que o projeto DeepL Voice-to-Voice está agora em fase de desenvolvimento ativo no DeepL AI Labs. Os resultados iniciais são extremamente promissores.
Em linha com a nossa missão de construir o futuro dos fluxos de trabalho de IA para empresas que operam em todo o mundo, agora é possível fornecer traduções de voz para voz em tempo real e de alta qualidade para vários idiomas.
Aqui está um teaser dos modelos de síntese de voz (TTS, text-to-speech) com suporte para clonagem de voz nos quais a equipa de investigação está a trabalhar atualmente. Pode avaliar a qualidade por si mesmo.
Um bom modelo TTS é apenas a base para uma excelente experiência. Criar um produto que funcione em tempo real requer muito mais: uma estratégia para inferência fragmentada, encadeamento contínuo do áudio gerado e controlo da velocidade de saída para alcançar uma latência mínima.
A qualidade que acabou de ouvir é o nosso novo padrão. Esta tecnologia é um ponto central para nós: partilharemos mais novidades e informações à medida que nos aproximarmos dos principais eventos do final do ano. O futuro da comunicação impulsionada pela IA está quase a chegar!