DeepL AI Labs

实时语音到语音翻译：DeepL如何重塑全球沟通的未来

入门指南：正确的基础

我们的旅程始于一项基础性挑战：创建一款符合DeepL精确度标准的语音转文字引擎。我们突破现有架构的局限，通过专注于高级训练和高质量数据精炼的流程，开发出专有模型。这种方法带来了明显的性能优势。

我们的内部基准测试显示，我们的模型实现了业界领先的词错误率（WER），其转录准确度超越了成熟的竞争对手。我们不采用公开基准测试，而是通过精心构建的专有测试集评估转录质量，该测试集能真实反映客户关注的企业业务场景。

[模型语音转文字准确率（词错误率）]，对比DeepL Voice较低的词错误率与亚马逊转录服务及微软Azure AI语音服务。越低越好。

困难之处：消除延迟和闪烁

优秀的转录只是起点。实时翻译不断演变的转录文本，提出了具有挑战性的研究课题。在翻译中间转录内容时——例如想象一个较长句子的前半部分——很难预知说话者将如何继续表达。第一代工具通常采用两种方式解决此问题：要么等待完整句子输入，导致翻译延迟过高；要么持续更新翻译结果，造成令人不适的"闪烁"用户体验（更多详情请参阅此处）。

对于DeepL Voice，我们致力于在保持高翻译质量和低延迟的同时，提供流畅的用户体验。凭借在神经机器翻译领域深厚的研发积淀，我们具备独特优势，能够突破实时翻译的边界，持续输出流畅稳定的翻译文本流。

请看这些并排的屏幕录制对比——右侧是DeepL Voice for Meetings语音翻译，左侧是Microsoft Teams翻译，您会发现其中的差异。