Microsoft如何将深度学习方法应用于语音增强?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1500个文字,预计阅读时间需要6分钟。
在语音增强领域,深度学习方法的应用显著。具体应用包括:DNS、AEC、PLC等国际级语音竞赛的主办方——微软研究院音频与声学研究组(Audio and Acoustics Research)。
Application of deep learning methods in speech enhancement 语音增强中的深度学习应用1. (基于时频域监督学习的)语音增强模块按:
本文是DNS,AEC,PLC等国际级语音竞赛的主办方——Microsoft Research Labs音频与声学研究组(Audio and Acoustics Research Group)于2021年发表的Sound capture and speech enhancement for speech-enabled devices中节选的一章,总结了该组今年来在语音增强领域的工作。该报告的作者为Ivan Tashev和Sebastian Braun。本篇所有图片均源自该报告及其引文。
该模块主要展示了时频域语音增强的流程,包括短时傅里叶变换(STFT)、特征提取、神经网络、预测目标、增强/变换(过程)、短时傅里叶反变换(iSTFT)和损失函数几部分。其中自图中第二行开始只在训练阶段进行,本图建议与该组之前的一篇工作中的图(见下图)结合使用。
本文共计1500个文字,预计阅读时间需要6分钟。
在语音增强领域,深度学习方法的应用显著。具体应用包括:DNS、AEC、PLC等国际级语音竞赛的主办方——微软研究院音频与声学研究组(Audio and Acoustics Research)。
Application of deep learning methods in speech enhancement 语音增强中的深度学习应用1. (基于时频域监督学习的)语音增强模块按:
本文是DNS,AEC,PLC等国际级语音竞赛的主办方——Microsoft Research Labs音频与声学研究组(Audio and Acoustics Research Group)于2021年发表的Sound capture and speech enhancement for speech-enabled devices中节选的一章,总结了该组今年来在语音增强领域的工作。该报告的作者为Ivan Tashev和Sebastian Braun。本篇所有图片均源自该报告及其引文。
该模块主要展示了时频域语音增强的流程,包括短时傅里叶变换(STFT)、特征提取、神经网络、预测目标、增强/变换(过程)、短时傅里叶反变换(iSTFT)和损失函数几部分。其中自图中第二行开始只在训练阶段进行,本图建议与该组之前的一篇工作中的图(见下图)结合使用。

