DeepL AI Labs
Il nostro percorso è iniziato con una sfida fondamentale: creare un motore di conversione da voce a testo che soddisfacesse gli standard di precisione di DeepL. Abbiamo superato le architetture esistenti, sviluppando modelli proprietari attraverso un processo mirato di formazione avanzata e perfezionamento dei dati di alta qualità. Questo approccio ha portato a un chiaro vantaggio in termini di prestazioni.
I nostri benchmark interni dimostrano che i nostri modelli raggiungono un tasso di errore sulle parole (WER, Word Error Rate) leader di mercato, fornendo trascrizioni più accurate rispetto ai concorrenti affermati. Invece di benchmark pubblici, valutiamo la qualità della trascrizione su un set di test proprietario accuratamente curato che riflette i casi d’uso aziendali che interessano ai nostri clienti.
[“Accuratezza della conversione da voce a testo (tasso di errore sulle parole) dei modelli”, confronto tra il WER inferiore di DeepL Voice rispetto ad Amazon Transcript e Microsoft Azure AI Speech. Un valore più basso è un dato positivo.]
Una trascrizione eccellente è solo l’inizio. Tradurre una trascrizione in evoluzione in tempo reale pone sfide impegnative. Quando si traduce una trascrizione intermedia, per esempio la prima parte di una frase più lunga, è difficile sapere come proseguirà il discorso. La maggior parte degli strumenti di prima generazione ha affrontato questo problema in due modi: aspettando che la frase fosse completa, il che comporta un’elevata latenza di traduzione, oppure aggiornando di continuo il risultato della traduzione, il che produce uno spiacevole “sfarfallio” nell’esperienza dell’utente (per saperne di più, clicca qui).
Per DeepL Voice abbiamo l’ambizione di fornire un’esperienza utente fluida, mantenendo un’elevata qualità di traduzione e una bassa latenza. Grazie alla nostra lunga esperienza nella ricerca sulla traduzione automatica neurale, siamo in una posizione privilegiata per superare i limiti della traduzione in tempo reale e fornire un flusso di testo tradotto incredibilmente fluido e stabile.
Guarda la differenza in queste registrazioni affiancate di DeepL Voice for Meetings (a destra) e delle traduzioni di Microsoft Teams (a sinistra).
Progettando questo flusso di testo stabile, abbiamo risolto l’ostacolo principale al vero obiettivo: conversazioni da voce a voce fluide e di alta qualità. Non è possibile produrre un output audio dal suono naturale quando viene generato da uno script instabile e intermittente.
Siamo entusiasti di annunciare che il progetto DeepL Voice-to-Voice è ora in fase di sviluppo attivo all’interno di DeepL AI Labs. I primi risultati sono davvero promettenti.
In linea con la nostra missione di costruire il futuro dei flussi di lavoro IA per le aziende che operano in tutto il mondo, ora è possibile fornire traduzioni da voce a voce in tempo reale di alta qualità per molte lingue.
Ecco un’anteprima dei modelli di sintesi vocale (TTS, text-to-speech) con supporto per la clonazione vocale su cui il team di ricerca sta lavorando al momento. Ma non crederci sulla parola: puoi farti un’idea sulla qualità ascoltando questi audio.
In ogni caso, un buon modello TTS è solo la base per un’esperienza da voce a voce eccellente. La creazione di un prodotto che funzioni in tempo reale richiede molto di più: una strategia per l’inferenza a blocchi, il concatenamento senza soluzione di continuità dell’audio generato e il controllo della velocità di output per ottenere una latenza minima.
La qualità che hai appena ascoltato è il nostro nuovo standard di riferimento. Questa tecnologia è un punto focale per noi: condivideremo ulteriori anticipazioni e approfondimenti man mano che ci avvicineremo ai principali eventi di fine anno. Il futuro della comunicazione basata sull’IA è dietro l’angolo!