Microsoft如何将深度学习方法应用于语音增强？

更新于

2026-07-29 11:57:42

17阅读来源：SEO问题

内容介绍
文章标签
相关推荐

本文共计1500个文字，预计阅读时间需要6分钟。

在语音增强领域，深度学习方法的应用显著。具体应用包括：DNS、AEC、PLC等国际级语音竞赛的主办方——微软研究院音频与声学研究组（Audio and Acoustics Research）。

Application of deep learning methods in speech enhancement 语音增强中的深度学习应用

按：
本文是DNS，AEC，PLC等国际级语音竞赛的主办方——Microsoft Research Labs音频与声学研究组（Audio and Acoustics Research Group）于2021年发表的Sound capture and speech enhancement for speech-enabled devices中节选的一章，总结了该组今年来在语音增强领域的工作。该报告的作者为Ivan Tashev和Sebastian Braun。本篇所有图片均源自该报告及其引文。

1. （基于时频域监督学习的）语音增强模块

该模块主要展示了时频域语音增强的流程，包括短时傅里叶变换（STFT）、特征提取、神经网络、预测目标、增强/变换（过程）、短时傅里叶反变换（iSTFT）和损失函数几部分。其中自图中第二行开始只在训练阶段进行，本图建议与该组之前的一篇工作中的图（见下图）结合使用。

阅读全文

标签：报告 Microsoft Application deep