【佳作推荐】浙江工业大学张贵军教授小组JCIM论文:基于深度学习的端到端蛋白质结构域组装方法
2023-11-19 ComputArt计算有乐趣 ComputArt计算有乐趣 发表于上海
该方法利用深度学习网络,通过注意力机制融合多种特征来预测域间相互作用,再将其转换为域间刚性运动变换,实现端到端的蛋白结构域组装和多域蛋白质预测。
随着深度学习的发展,AlphaFold2能够端到端地,以实验分辨率精度预测几乎所有的单结构域蛋白质。然而,多结构域蛋白质的结构预测仍然是一个挑战。一个兼具准确率和效率,实现蛋白质结构域组装和结构预测的工具,将为基于结构的药物发现提供重要的思路。
为提高多域蛋白质全链建模的精度和速度,浙江工业大学张贵军教授课题组近期开发了端到端的蛋白质结构域组装方法E2EDA。该方法利用深度学习网络,通过注意力机制融合多种特征来预测域间相互作用,再将其转换为域间刚性运动变换,实现端到端的蛋白结构域组装和多域蛋白质预测。与目前先进的蛋白质结构预测算法AlphaFold2相比,该方法在预测精度与速度上均有显著提升。该项研究工作近日在美国化学会出版的Journal of Chemical Information and Modeling期刊上发表(J. Chem. Inf. Model. 2023, 63, 6451-6461)【1】。
E2EDA使用RMNet网络的注意力机制融合多序列比对(MSA)特征、单域特征和同源多模板特征来预测刚体运动分布。然后,使用两个结构域界面残基中C α原子之间的旋转和平移向量描述这两个结构域之间相对位置的刚性运动(图2),将预测的刚体运动转化为域间空间变换,从预测的刚性运动分布中选择结构域间残基置信度最高构象来组装多结构域蛋白,直接构建复合物模型。最后,作者自行构建打分函数RMscore评价预测的刚性运动分布,对刚性运动组装的多结构域蛋白质进行打分,选取得分最高的5个模型作为最终预测结果。
图1、利用残基Cα旋转平移向量表示结构域间刚性运动
图2、E2EDA模型架构示意图
作者以40 %的序列一致性构建了一个多结构域蛋白质无冗余数据集用以训练E2EDA,并构建了一个包含452个来自AlphaFold DB的多域蛋白质来评估E2EDA模型的预测性能。测试结果显示,E2EDA模型在基准集( 282 )上的平均TM - score为0.827,优于其他领域组装方法SADA ( 0.792 )和DEMO ( 0.730 ) (图3左)。
图3、(左)用E2EDA、SADA和DEMO对组装模型的TM - score作箱线图;(右)E2EDA, SADA和Alphafold的平均运行时间对比图
与AlphaFold2预测的多域结构相比,E2EDA模型预测TM - score提高了7.0 %(图4A)。而且,AlphaFold2的预测蛋白的对其误差(predicted aligned error,pAE)图显示域间填充颜色比E2EDA预测的域间填充颜色浅(图5B,D),说明E2EDA组装的模型域间pAE数值更小,预测置信度更高,域间定向比AlphaFold2更准确,获得较Alphafold2更高质量组装结构(图4B,图5A,C)
图4、E2EDA和AlphaFold2对测试集中多结构域蛋白预测结果比较
图5、A 和C分别是E2EDA和AF2预测T1024蛋白的全链模型;B和D分别为E2EDA和AF2预测的模型与真实结构的预测对齐误差( PAE )
此外,与SADA和AlphaFold2相比,E2EDA在基准程序上的平均运行时间分别减少了64.7 %和19.2 %(图3右),表明E2EDA可以显著提高组装效率,在高通量蛋白结构预测中更具优势。
小结:本研究开发了一种基于深度学习的端到端结构域组装方法E2EDA。E2EDA利用RMNet学习MSA信息和注意力机制融合单结构域和同源模板信息,预测多结构域蛋白质残基之间的刚性运动。与AlphaFold2相比,E2EDA能够更精确地捕获结构域间取向,提高多结构域蛋白结构预测准确性,并显著提高了组装效率。如果改用预训练的蛋白质语言模型embedding替换高CPU占用的MSA信息,相信能够再大幅度提高效率;E2EDA也能够泛化扩展到蛋白-蛋白复合物的组装中,提高复杂蛋白-蛋白复合物结构的预测效率。
特别提醒,该模型的在线服务器网址为http://zhanglab-bioinf.com/E2EDA。
参考文献
【1】Hai-Tao Zhu, Yu-Hao Xia, and Gui-Jun Zhang. E2EDA: Protein Domain Assembly Based on End-to-End Deep Learning. J. Chem. Inf. Model. 2023 63 (20), 6451-6461. https://doi.org/10.1021/acs.jcim.3c01387
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
真才实学,好看
49
#深度学习# #端到端蛋白质# #多域蛋白质全链#
63