DeepL AI Labs
Nossa jornada começou com um desafio fundamental: criar um mecanismo de conversão de fala em texto que atendesse ao padrão do DeepL para precisão. Fomos além das arquiteturas existentes e desenvolvemos modelos proprietários por meio de um processo focado em treinamento avançado e refinamento de dados de alta qualidade. Essa abordagem nos rendeu uma nítida vantagem em termos de desempenho.
Os benchmarks internos mostram que nossos modelos atingem a menor taxa de erros de palavras (WER) do mercado, fornecendo transcrições mais precisas do que nossos concorrentes consagrados. Em vez de benchmarks públicos, avaliamos a qualidade da transcrição com base em um conjunto de testes proprietários cuidadosamente selecionados que refletem os casos de uso comercial que são importantes para nossos clientes.
[“Speech-to-Text Accuracy (Word Error Rate) of Models”, comparando a menor WER do DeepL Voice com o Amazon Transcribe e a Fala de IA do Microsoft Azure. Quanto menor, melhor].
Uma ótima transcrição é apenas o começo. A tradução de uma transcrição em tempo real apresenta aspectos de pesquisa desafiadores. Ao traduzir parte de uma transcrição – por exemplo, imagine a primeira parte de uma frase mais longa –, é difícil saber como o falante vai continuar. A maioria das ferramentas de primeira geração abordou esse problema de duas maneiras: esperando até que a frase completa estivesse disponível, o que causa uma alta latência de tradução, ou atualizando constantemente o resultado da tradução, o que gera uma experiência desagradável de “cintilação” para o usuário (leia mais sobre isso aqui).
Para o DeepL Voice, temos a ambição de oferecer uma experiência melhor, mantendo a alta qualidade da tradução e a baixa latência. Com nosso longo histórico de pesquisa em tradução automática neural, temos uma estratégia exclusiva para ultrapassar os limites da tradução em tempo real e oferecer um fluxo de texto traduzido fluido e suave.
Veja a diferença que isso faz nestas gravações de traduções do DeepL Voice for Meetings (no lado direito) e do Microsoft Teams (no lado esquerdo).
Ao desenvolver esse fluxo de texto estável, resolvemos o principal obstáculo para o verdadeiro objetivo: conversas de voz para voz sem esforço e de alta qualidade. Não é possível obter um resultado natural quando o áudio é gerado a partir de um script instável e intermitente.
Com essa importante conquista, temos o prazer de anunciar que o projeto DeepL Voice-to-Voice está em desenvolvimento no DeepL AI Labs. Os resultados iniciais são incrivelmente promissores
e estão alinhados à nossa missão de moldar o futuro dos fluxos de trabalho com IA para empresas de todo o mundo. Oferecer traduções de voz para voz em tempo real de alta qualidade para vários idiomas vai ser totalmente possível!
Aqui está uma prévia dos modelos de conversão de texto em voz (TTS) com suporte para clonagem de voz em que a equipe de pesquisa está trabalhando no momento. Você pode avaliar a qualidade e tirar suas próprias conclusões.
No entanto, um bom modelo de TTS é só o começo para uma ótima experiência de voz para voz. Criar um produto que funcione em tempo real exige muito mais: uma estratégia para inferência em blocos, encadeamento contínuo do áudio gerado e controle da velocidade do resultado para obter o mínimo de latência.
A qualidade que você acabou de ouvir é nosso novo parâmetro de referência. Essa tecnologia é um dos nossos principais focos. Vamos compartilhar mais teasers e análises aprofundadas à medida que nos aproximarmos dos principais eventos no fim deste ano. O futuro da comunicação baseada em IA está próximo!