中国科大在基于深度生成模型的功能蛋白质设计方面取得新进展

来源：科研部发布时间：2024-11-18 浏览次数：132

近日，中国科学技术大学认知智能全国重点实验室刘淇教授指导博士生张载熙和哈佛大学医学院Marinka Zitnik教授课题组合作，设计了一种基于图表示学习和蛋白质语言模型的深度生成算法PocketGen，生成与小分子结合的蛋白质口袋序列和空间结构。实验验证表明，PocketGen在生成成功率和效率方面均超过了传统方法。相关成果以“Efficient Generation of Protein Pockets with PocketGen”为题于北京时间11月15日发表于《自然·机器智能》（Nature Machine Intelligence）期刊。

研发适用于科学发现任务的人工智能算法，例如功能蛋白质设计，是认知智能全国重点实验室的一个重要研究方向。在药物发现和生物医疗领域，设计与小分子结合的功能蛋白质（例如酶和生物传感器）具有重要意义。然而，基于能量优化和模板匹配的传统方法计算速度慢、成功率低。基于深度学习的模型又存在分子-蛋白质复杂相互作用建模难，序列-结构依赖关系学习难等问题。因此，发展高效、高成功率且准确反映物理化学规律的蛋白质口袋生成算法是该领域的急切需求。

研究团队在前期蛋白质口袋生成工作FAIR（NeurIPS 23 Spotlight）和PocketFlow（NeurIPS 24 Spotlight）的基础上，研发了PocketGen（图1）。PocketGen可以基于蛋白质框架和结合小分子生成蛋白质口袋序列和结构（图1a）。PocketGen主要由两部分组成。第一部分为双层图Transformer编码器（图1b）：该模型受蛋白质固有的层级结构启发，包括氨基酸层级编码器和原子层级编码器，学习不同细粒度的相互作用信息，并更新氨基酸/原子表示和坐标。第二部分为蛋白质预训练语言模型（图1c）：PocketGen高效微调了ESM2模型，辅助氨基酸序列预测。具体方法为：PocketGen固定大部分模型层不变，仅微调部分适应层参数，进行序列-结构信息交叉注意力计算，增强序列-结构一致性。在实验中，PocketGen模型不仅在亲和力和结构合理性等指标上超过传统方法，在计算效率方面也有大幅提高（相比传统方法提升超过10倍）。

图1. (a) 用PocketGen进行蛋白质序列-结构共同设计。(b) 双层图Transformer编码器；(c) 蛋白质预训练语言模型用于序列预测及高效微调技术。

进一步地，团队在芬太尼和艾必克等小分子结合蛋白质口袋设计任务中进行了验证，并与新晋诺贝尔奖得主David Baker教授实验室的生成模型RFDiffusion、RFDiffusionAA等进行比较，验证了PocketGen的有效性。另外，还将PocketGen产生的注意力矩阵与基于第一性原理和力场模拟分析软件得到的结果进行对比展示，表明基于深度学习的PocketGen具有较好可解释性（图2）。

图2. 左侧图为薛定谔软件分析的蛋白质-小分子相互作用关系图。在右侧展示的是PocketGen两个注意力矩阵头的热图，与左侧相互关系成功对应上。

该工作推进了深度生成模型用于功能蛋白质设计，为进一步理解蛋白质设计规律并开展生物实验验证奠定了基础，也展现了人工智能方法在解决药物研发和生物工程领域重要科学问题上的优势。

中国科学技术大学为本文第一单位，计算机科学与技术学院博士生张载熙为本文第一作者，刘淇、Marinka Zitnik为本文共同通讯作者。本研究得到了中国科大陈恩红教授、刘海燕教授等的宝贵建议，以及首届国家自然科学基金青年学生基础研究项目（博士生）、中国科学技术大学优秀博士生出国交流支持计划和中央高校科研启动经费等资助。

论文链接：https://www.nature.com/articles/s42256-024-00920-9

（认知智能全国重点实验室、计算机科学与技术学院、人工智能与数据科学学院）