报告时间:2025年11月6日14:30
报告地点:中国科学技术大学高新校区信智楼A507室
报告题目:轻量级神经网络语音编码方法研究
报告人简介:
艾杨,中国科学技术大学特任副研究员。2021年6月获得中国科学技术大学信息与通信工程工学博士学位,2022年4月至今于中国科学技术大学开展研究工作。研究方向包括语音编码、语音增强、语音合成、语音增强以及音频质量评价等,在语音技术领域知名期刊和会议上发表论文60余篇,主持国家自然科学基金青年项目、安徽省自然科学基金青年项目和中国科学技术大学青年创新基金各1项。在获奖方面,2024年入选“小米青年学者”,获得Interspeech 2024离散语音挑战赛(Discrete Speech Challenge)声码器赛道冠军(第一完成人)以及第十八届全国人机语音通讯学术会议最佳论文奖(通讯作者)等。
摘要:
目前,语音编解码器(Speech Codec)在语音通信、语音合成大模型、生成式语音增强等领域有着重要的应用,相关研究成果层出不穷。本次参加APSIPA ASC 2025国际会议宣讲了本团队在语音编解码器领域的部分研究成果。本报告拟分享本团队近一年在轻量级神经网络语音编码方面的研究成果,主要包含三个部分。首先介绍团队提出的以语音修正离散余弦变换(MDCT)谱为建模对象的轻量级神经网络语音编解码器MDCTCodec。其次,本报告将介绍团队围绕低延迟实时语音通信场景提出的轻量级流式神经网络语音编解码器StreamCodec。最后,本报告还将介绍神经网络语音编解码器在下游任务中的应用。以语音增强为例,团队借助神经网络语音编解码器产生的声学离散表征,将语音增强任务由回归问题转化为分类问题,成功实现了面向多种失真类型的通用语音增强方案。