DeepL AI Labs

实时语音到语音翻译:DeepL如何重塑全球沟通的未来

入门指南:正确的基础

我们的旅程始于一项基础性挑战:创建一款符合DeepL精确度标准的语音转文字引擎。我们突破现有架构的局限,通过专注于高级训练和高质量数据精炼的流程,开发出专有模型。这种方法带来了明显的性能优势。

我们的内部基准测试显示,我们的模型实现了业界领先的词错误率(WER),其转录准确度超越了成熟的竞争对手。我们不采用公开基准测试,而是通过精心构建的专有测试集评估转录质量,该测试集能真实反映客户关注的企业业务场景。

[模型语音转文字准确率(词错误率)],对比DeepL Voice较低的词错误率与亚马逊转录服务及微软Azure AI语音服务。越低越好。

困难之处:消除延迟闪烁

优秀的转录只是起点。实时翻译不断演变的转录文本,提出了具有挑战性的研究课题。在翻译中间转录内容时——例如想象一个较长句子的前半部分——很难预知说话者将如何继续表达。第一代工具通常采用两种方式解决此问题:要么等待完整句子输入,导致翻译延迟过高;要么持续更新翻译结果,造成令人不适的"闪烁"用户体验(更多详情请参阅 此处)。

对于DeepL Voice,我们致力于在保持高翻译质量和低延迟的同时,提供流畅的用户体验。凭借在神经机器翻译领域深厚的研发积淀,我们具备独特优势,能够突破实时翻译的边界,持续输出流畅稳定的翻译文本流。

请看这些并排的屏幕录制对比——右侧是DeepL Voice for Meetings语音翻译,左侧是Microsoft Teams翻译,您会发现其中的差异。

通过构建这种稳定的文本流,我们消除了实现真正目标的主要障碍:轻松进行高质量的语音通话。当音频输出由不稳定、闪烁的脚本生成时,自然流畅的音效根本无从谈起。

最后一步:实时语音

凭借这一关键技术,我们激动地宣布:DeepL Voice转语音项目现已在DeepL人工智能实验室进入积极开发阶段。初步结果令人鼓舞。 

我们致力于为全球运营的企业构建未来的人工智能工作流程。为多种语言提供高质量的实时语音翻译服务,如今已触手可及!

以下是研究团队当前正在开发的文字转语音(TTS)模型的初步演示,该模型支持语音克隆功能。你可以自己判断质量。

EN
语音示例
EN
Voice克隆技术驱动的文本转语音系统
DE
语音示例
DE
Voice 克隆技术驱动的文本转语音系统
ES
Voice 示例
ES
Voice 克隆技术驱动的文本转语音系统
ZH
语音示例
ZH
Voice 克隆技术驱动的文本转语音系统

然而,优秀的文本转语音模型仅仅是打造卓越语音交互体验的基础。构建实时运行的产品需要更多要素:采用分块推理策略,实现生成的音频与输出速度的无缝衔接,从而控制延迟并达到最小化。

您刚刚听到的音质是我们的新基准。这项技术是我们关注的核心领域,随着今年下半年重大活动的临近,我们将陆续发布更多预告和深度解析。人工智能驱动的通信未来即将到来!

分享

互联互通

抢先了解我们最新的人工智能创新成果。