Deep Voice：基于神经网络的生产型实时文语转换系统-DOIT-数据产业媒体与服务平台

百度研究院近日展示了一项名为Deep Voice的研究成果，这是一套完全由深度神经网络构建的生产质量级文语转换系统。迄今为止，构建此类系统的最大障碍是语音合成速度，以前花费几分钟或几小时才能产生仅几秒钟的语音。现在，这项挑战已被攻克，证明了实时语音合成的成功，相比之前WaveNet推论与实施，该系统的加速能力高达400倍。

从文本合成为人工语音，通常称为“文语转换”（简称TTS），这是许多应用程序中的必要组件，例如在具有语音功能的设备、导航系统和视觉障碍者的可访问性上。基本上，文语转换允许人工技术交互，而不需要可视化界面。

现代TTS系统以复杂的多阶段处理途径为基础，其中每一个环节都可以依赖于手工工程的特点和启发法。由于过程复杂，开发新TTS系统的工作可能是劳动密集型的，也是困难的。

Deep Voice的灵感来自于传统的文语转换途径，采用相同的结构，基于神经网络并根据更为简单的特征来替换所有组件。这使我们的系统更容易适用于新的数据集、语音和区域，而无需任何手动数据注释或附加功能工程。

Deep Voice为真正的端到端语音合成奠定了基础，没有复杂的处理流程，也不依赖于手工设计的输入或预训练功能。

当前的处理途径还不是端到端的，包括音素模型和音频合成组件之内。机器语音合成源于处理途径的结构和音素模型，语音合成组件单独生成为更加自然的剪辑。其声音样本听起来非常接近原始语音，表明语音合成组件可以非常有效地再现人类的声音。

当今，深度学习改变了诸多领域的发展，如计算机视觉技术和语音识别，而文语转换当前正处于一个类似的转折点。

Deep Voice：基于神经网络的生产型实时文语转换系统

zhangnn

相关推荐

近期文章

热门标签