Nature Machine Intelligence:同济大学刘琦团队开发基于元学习的AI模型,用于抗原-TCR亲和力识别及肿瘤新生抗原免疫原性预测
2023-03-20 “生物世界”公众号 “生物世界”公众号 发表于上海
MHC-多肽复合物与TCR亲和力的计算识别(pMHC-TCR binding recognition)是揭示肿瘤、自身免疫性疾病和病毒感染性疾病等疾病发生发展机制的重要手段。
T细胞受体(T-cell receptor, TCR)是获得性免疫过程中的关键分子。TCR经过特定的基因重组和进化筛选,具备高度的多样性及特异性。MHC-多肽复合物与TCR亲和力的计算识别(pMHC-TCR binding recognition)是揭示肿瘤、自身免疫性疾病和病毒感染性疾病等疾病发生发展机制的重要手段,也是计算免疫学领域基本而又极具挑战的问题,其挑战性具体体现为:
1)TCR空间呈现高度多样性,现有TCR识别的计算模型难以泛化至该高度多样化的TCR空间;
2)已知肽段-TCR配对数据服从长尾分布 (Long-tail)(图1),训练数据样本分布严重不均衡,少量的肽段拥有大量已知TCR结合数据(头部肽段),但大部分肽段仅记录了少量已知的TCR结合信息(尾部肽段)。直接基于此数据构建传统的监督式学习模型会使得模型倾向于学习头部样本的TCR结合模式,但难以泛化至尾部样本(Few shot)的亲和力预测;
3)肿瘤新生抗原,外源性肽段等对于免疫系统来说是未见的新生抗原,对于该类抗原的TCR识别是免疫治疗和细胞治疗的关键。但该类抗原的TCR亲和力识别属于AI领域的零样本识别问题(Zero shot),现有的计算模型无法解决。
图1. 已知数据肽段-TCR结合数据服从长尾分布
近日,同济大学生命科学与技术学院生物信息学系、同济大学-上海自主智能无人系统科学中心刘琦教授课题组,联合之江实验室等团队在 Nature Machine Intelligence 期刊发表了题为:Pan-Peptide Meta Learning for T-Cell Receptor-Antigen Binding Recognition 的研究论文。
该研究开发了普适有效的抗原-TCR亲和力预测的AI模型——PanPep。面向上述pMHC-TCR亲和力识别中的挑战和瓶颈,创新性地提出了基于元学习(Meta Learning)和神经图灵机(Neural Turning Machine)的AI计算框架,通过模拟人类对于已知任务的存储记忆和新任务的类比学习机制,有效地解决上述数据的长尾分布识别问题:即面向尾部肽段(Few shot)和肿瘤新生抗原或外源性肽段(Zero shot)进行TCR亲和力识别。
实验证明PanPep在三种应用场景Majority learning、Few-shot learning以及Zero-shot learning场景中均取得了较高的抗原-TCR预测准确率。
PanPep算法框架包含了元学习模块和解耦蒸馏(Disentanglement distillation)模块。其中,针对已知数据的长尾效应,元学习模块采用了Model-Agnostic Meta Learning(MAML)计算框架。模型假设每一个肽段具有其特异性的TCR结合模式,因此每一个肽段下的TCR结合识别任务被当作MAML中的一个任务,且肽段表征的分布即为任务的分布。基于这些肽段任务(Peptide-specific task),元学习模块能够仅基于少量训练样本在不同任务中快速泛化。而对于诸多未见的肽段,例如新生抗原、外源性抗原等肽段,由于缺乏已知的TCR结合信息,无法通过对于元学习模块进行微调使其快速泛化到该任务上,故研究团队受启发于神经图灵机(NTM)通过外部记忆模块避免学习遗忘这一机制,创新性的开发了解耦蒸馏模块,借助以往学习任务所获得的经验,对于未见的新肽段的TCR结合识别任务进行泛化,从而实现零样本学习。
该工作中,研究团队首先将该算法与同类算法在三种测试场景(Majority,Few-shot和Zero-shot场景)中进行比较,PanPep在保持Majority场景的预测性能的同时,在Few-shot和Zero-shot场景中均获得了最优的预测性能。特别的,现有工具在Zero-shot场景下均无预测能力,表明现有计算工具无法对于免疫系统未见的新肽段进行TCR亲和力识别。
进而,研究团队进一步证明了PanPep可以有效地应用于:
1)T细胞克隆扩增的定量识别;
2)肿瘤新生抗原刺激下的T细胞识别;
3)新冠病毒的抗原-TCR识别。
实验表明PanPep在肿瘤新生抗原预测、突发病毒的免疫学机制研究,抗原抗体设计、TIL细胞疗法等诸多领域具有广泛的应用价值。
元学习和目前领域内流行的大模型 (如ChatGPT等) 均是通往通用人工智能(AGI,Artificial General Intelligence)的可能有效途径。该工作是应用和发展元学习理论解决生物组学数据长尾分布和小样本问题的有益尝试。
该工作获得了审稿人的高度评价,评审认为:"conceptually very sound and a major algorithm advance ", " motivate the development of meta learning in bioinformatics"。该工作被Nature Machine Intelligence Highlight,并将当期特邀密苏里大学计算机科学系前系主任,美国科学促进会(AAAS)会士和美国医学和生物工程研究院(AIMBE)会士Dong Xu教授撰写Highlight View: “Meta-learning for T cell-receptor binding specificity and beyond”。在该View中,Dong Xu教授绘制了一个全面系统的框架图,清晰的总结了PanPep计算模型的基本思路,并指出了生物数据中普遍存在的长尾分布特征和本工作在解决长尾分布和小样本学习上的重要价值。Dong Xu教授认为“PanPep provides a pioneering example of using meta-learning”,“delivered a great promise of using meta learning to address bioinformatics' long tail distribution problems”。
刘琦教授课题组长期致力于组学人工智能驱动的精准医学研究和转化实践。论文第一作者为刘琦教授课题组的高溢骋、高雨莉博士,通讯作者是刘琦教授。
专家点评一:陈洛南研究员(中国科学院上海生命科学研究院 )
随着生物测序技术的发展,各种类型的生物数据为解码生命规律带来数据支撑的同时,也为相关知识与规律的挖掘提出更高挑战,而人工智能在其中起到的作用正在变得已经越来越重要。同济大学刘琦教授课题组发表在Nature Machine Intelligence上的文章,综合地运用元学习(Meta Learning)和神经图灵机(Neural Turning Machine)的AI计算框架,通过模拟人类对于已知任务的存储记忆和新任务的类比学习机制,有效地解决肽段-TCR配对数据的长尾分布识别问题,提高了抗原-TCR亲和力预测准确性。该方法不仅在Zero-shot learning场景下,克服现有工具无法对于免疫系统未见的新肽段进行TCR亲和力识别的问题,还被证明在肿瘤新生抗原预测、突发病毒的免疫学机制研究,抗原抗体设计、TIL细胞疗法等领域的应用价值,让我们看到了人工智能技术对生物数据的巨大潜力。特别值得一提的是,长尾分布是当前生物数据中普遍存在的特征,论文提出的元学习理论为解决生物数据中的长尾分布和小样本学习提供了重要的参考价值。该工作在模型设计和应用等方面是当前生物信息学领域中人工智能技术与生物应用结合的典型成果。同时,该工作为人们示例了人工智能在生物研究方面的应用,在此基础上,人们未来可以更深入研究如何通过人工智能技术更好发掘利用生物数据,解码生命现象中的更深层规律。
专家点评二:宋乐博士(百图生科CTO兼首席AI科学家 )
抗原-TCR亲和力预测是计算免疫学领域的“圣杯”问题,也是百图生科所关注的一个重要的计算科学问题。百图生科于2022年发布了《计算免疫问题白皮书》,指出抗原特异性的 BCR/TCR识别是免疫调控靶点识别的基础。TCR与MHC-多肽复合物(TCR-peptide-MHC, TCR-pMHC)的配对发现是认识癌症、自身免疫性疾病和感染性疾病等炎症性疾病的发病机理的关键,对诊疗技术的开发有巨大的推动作用。
同济大学刘琦教授团队的这项工作,在方法学上有以下两个方面的重要突破:
1. 创新性的应用和发展了元学习的思想来解决抗原-TCR亲和力识别问题。元学习是AI领域的一个前沿的研究方向,在生命科学领域尚缺乏比较成功的应用案例。该研究首次证明元学习可以有效的应用于抗原-TCR这种长尾分布的数据分析当中。而传统的AI方法无法有效的识别尾部TCR数据的结合模式。
2. 元学习方法通常适用于小样本学习,但一般无法解决零样本学习。该研究明确地将新生抗原和外源性抗原的TCR亲和力识别问题定义为零样本学习问题,并首次提出一种基于神经图灵机的知识蒸馏模型来预测零样本下的TCR结合,取得了良好的预测效果,在算法层面具有原创性。
总结来说,我认为该工作是一个典型的发展人工智能理论和方法来解决重要的生命科学问题(AI for Life Science)的成功案例。对于该问题的未来几个研究方向包括:
1)进一步探索MHCII呈递的肽段激活CD4阳性T细胞的TCR识别问题;
2)探索将元学习和大规模预训练等结合来解决生物小样本学习的可能途径。
百图生科最近发布了“xTrimo”,作为全球首个生命科学领域的超大规模多模态模型体系,能够表征单体蛋白质、蛋白质相互作用、免疫细胞、免疫系统等多层次生物问题,也有望解决生物小样本学习的问题。我们也希望未来看到更多的学术界和产业界科学家开启共同合作,进一步探索生命科学的奥秘。
专家点评三:李斌研究员(上海交大医学院上海市免疫学研究所副所长 )
T细胞受体(T-cell receptors, TCRs)与抗原肽/ MHC复合物(pMHC)的特异性结合是T细胞激活的关键环节。近年来,以肿瘤新抗原疫苗和T 细胞受体工程化 T 细胞(T cell receptor-engineered T cells, TCR-T)细胞治疗为代表的免疫疗法在多种实体肿瘤及病毒性感染疾病的临床实验中取得了令人欣喜的进展。当前,我们对TCR与抗原结合的亲和力和特异性的了解依然不够,免疫治疗领域仍面临TCR亲和力低、抗原丢失以及靶抗原特异性低导致潜在自身免疫毒性等共同挑战。对抗原-TCR亲和力识别及肿瘤新抗原免疫原性准确预测是免疫学前沿科学问题。目前针对TCR与pMHC配对检测,已经开发出了多种实验方法:如peptide-MHC四聚体分析、四聚体相关T细胞受体测序等。然而,基于实验方法的预测和验证往往需要消耗大量的人力物力、成本高昂,且每种技术均具有其局限性和挑战性。
随着生物信息学算法的提升以及肿瘤突变、HLA 基因型、免疫治疗反应相关临床数据库的扩增,越来越多的研究者致力于通过开发更先进的生物信息学算法来对肿瘤特异性抗原或病毒肽及其配对TCR的进行识别。这大大降低了识别的时间和成本。然而以往的预测方法大多忽略了高度多样化的TCR空间结构信息,且均基于对具有大量已知TCR结合谱系肽段的结合模式进行学习,却无法识别那些在训练数据中不存在或仅具有少量已知的TCR结合信息的肽段。这极大限制了这些预测模型在相关研究中的应用,因为肿瘤新生抗原,外源性肽段等对于免疫系统来说理论上均属于之前尚未见过的新生抗原,训练数据中无法找到这类抗原的识别信息。针对以上难点,刘琦教授团队等研究人员创新性地提出了基于元学习(Meta Learning)和神经图灵机(Neural Turning Machine)的AI计算框架PanPep,通过模拟人类对于已知任务的存储记忆和新任务的类比学习机制,有效的解决了低样本甚至零样本肽段的TCR亲和力识别问题, 并在多场景下证明了PanPep出色的预测效能。这一创新性的TCR-抗原识别预测算法具有广泛的适用性,对于肿瘤新生抗原预测、突发病毒的免疫学机制研究,疫苗研发等诸多领域的探索均具有重要的推动作用。期待该算法将会给实体瘤患者的临床个体化精准免疫疗法领域带来新的突破,为广大患者造福。
专家点评四:袁纪军博士(艾博生物执行副总裁)
随着药物技术的进步,对肿瘤免疫的理解的加深,肿瘤疫苗越来越引起制药行业的兴趣和重视。而Neoantigen因为其肿瘤特异性,免疫原性以及良好的安全性,成为肿瘤疫苗以及以T细胞为基础的癌症免疫疗法中最具吸引力的靶标。基于Neoantigen的个体化肿瘤疫苗和过继性T细胞免疫治疗已在临床展现出令人鼓舞的抗肿瘤活性和优越的安全性,但由于缺少良好的检测方法及手段,目前仍缺少良好的模型来预测有强免疫原性的neoantigen。目前全球大多数的新生抗原研发公司选择采用高通量测序数据结合亲和力算法工具,进行肿瘤新生抗原的预测,而算法的质量直接决定肿瘤新生抗原预测的准确性,从而影响了后期临床验证成功的可能性。Panpep基于元学习和神经图灵机实现通过极少量的样本得到最大的泛化能力,在目前已有样本的数量有限和长尾分布限制下,向实现unbiased预测方向更近一步,有期望帮助解决个性化肿瘤疫苗开发中新生抗原选择准确性的技术壁垒。与现有算法大多仅能预测MHC-I所呈现的新抗原与TCR结合不同,Panpep在Few-shot和Zero-shot场景中展现的MHC-I所呈现的新抗原与TCR结合预测性能令人对MHC-II与TCR结合预测的可能性产生希望和期待,非常期待Panpep可以在后续的药物开发上进一步得到验证和开发。
专家点评五:徐建清博士(药明生物蛋白设计工程卓越中心负责人,高级主任 )
刘琦教授团队针对小样本数据开发的基于元学习和神经图灵机的 AI 模型,在生物制药领域可能会有比较深远的影响,将启发业界去探素相关或类似的应用场景,产生很多新的、基于 AI 的药物研发思路。
在肿瘤免疫治疗领域,加何能快速准确地预测、筛选和鉴定肿瘤新抗原,对于相关的免疫治疗方案的成功至关重要,也是目前个性化免疫治疗中的一个难点。文中提到的 Panpep 模型,对于TCR 与 MHC-I-peptide 复合物的zero shot亲和力的准确预测,有望加快对新抗原的鉴定过程,甚至使直接的新抗原序列设计成为可能。若此,一方面,以新抗原为基础的肿瘤疫苗的设计研发将直接获益;另一方面,对于特定新抗原,在模型的帮助下,其配套的 TCR 序列的快速筛选甚至是精准设计也有望实现。世界上第一个soluble TCR 药物,Immunocore 公司的 Tebentafusp 在2022 年初被FDA批准治疗葡萄膜黑色素瘤,掀起了TCR药物研发的热潮。本文中的 AI算法有望在提高TCR 相关药物 (soluble TCR, TCR-T等) 的研发进度和成功率上发挥巨大价值。
除了新抗原相关的应用,同样的模型训练方法也可以用在 MHC-II-peptide 的相关数据上,通过预测和 CD4-TCR 的相互作用,来预测蛋白药物(抗体,融合蛋白等)的序列中潜藏的免疫原性,并指导我们蛋白设计人员更安全的做工程改造以减少临床 ADA 的风险。在抗体药物研发的各种数据中,类似于 TCR-peptide 这样长尾分布和小样本特征的数据场景也有很多,模型的应用对于抗体药物的发现、筛选、优化、设计等多个环节也可以发挥非常重要的作用。
原始出处:
Gao, Y., Gao, Y., Fan, Y. et al. Pan-Peptide Meta Learning for T-cell receptor–antigen binding recognition. Nat Mach Intell (2023). https://doi.org/10.1038/s42256-023-00619-3.
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言