通知公告
关于艾杨老师学术报告会的通知
来源:科研部 发布时间:2026-05-13 浏览次数:12

信息科学技术学院艾杨老师202654-59日参加ICASSP 2026国际会议,将在校内作相关分享报告。


报告时间:202652014:30

报告地点:中国科学技术大学高新校区信智楼A507

报告题目:高效轻量化神经网络语音编解码与离散域通用语音增强


报告人简介:

艾杨,中国科学技术大学特任副研究员。20216月获得中国科学技术大学信息与通信工程工学博士学位,20224月至今于中国科学技术大学开展研究工作。研究方向包括语音编码、语音增强、语音合成、语音增强以及音频质量评价等,在语音技术领域知名期刊和会议上发表论文70余篇,主持国家自然科学基金青年项目、安徽省自然科学基金青年项目和中国科学技术大学青年创新基金各1项。在获奖方面,2024年入选“小米青年学者”,获得Interspeech 2024离散语音挑战赛(Discrete Speech Challenge)声码器赛道冠军(第一完成人)以及第十八届全国人机语音通讯学术会议最佳论文奖(通讯作者)等。


摘要:

近年来,基于神经网络的语音编解码技术发展迅速,相较于传统编解码算法,在相同比特率条件下能够实现更高质量的语音重构。然而,目前的神经网络语音编解码方法普遍采用非因果结构并伴随较大的模型参数量,难以满足低延迟实时语音通信及存储等场景的实际应用需求,设计高效且轻量化的神经网络语音编解码方法仍是一项具有挑战性的课题。本报告将首先介绍团队提出的以语音修正离散余弦变换(MDCT)谱为建模对象的高效轻量级神经网络语音编解码器MDCTCodec。其次,本报告将介绍团队围绕低延迟实时语音通信场景提出的流式神经网络语音编解码器StreamCodec。最后,本报告还将介绍神经网络语音编解码器在下游任务中的应用。以语音增强为例,团队以神经网络语音编解码器产生的声学离散表征为中间表示,将语音增强任务由波形/谱的回归问题转化为离散表征分类问题,成功实现了面向多种失真类型的离散域通用语音增强新方案。