最好白癜风医院咨询 http://pf.39.net/bdfyy/xwdt/4月29日上午,清华大学智能产业研究院(AIR)成功举办以“AI赋能基因分析与新药发现”为主题的学术工作坊。本次活动邀请到彭健、唐建、晋向前、曾坚阳、马剑竹五位海内外知名学者及产业界人士参加,就AI在医药、基因、医疗等方向展开探索交流。
彭健:结构性和功能性基因组学的机器学习算法
唐建:基于图表示学习的新药发现
晋向前:基因即因,未来已来
曾坚阳:基于机器智能的分子识别模式解析
马剑竹:利用细胞网络模型解释基因变异
AIR学术工作坊是AIR定期举办的中大型学术交流研讨活动,旨在提供一个学术交流、思想碰撞的平台,实现信息共享。
讲者介绍
彭健,现伊利诺伊大学厄巴纳-香槟分校(UniversityofIllinoisatUrbana-Champaign)计算机科学系副教授,此前曾于麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)进行博士后研究,曾以访问科学家的身份前往白头研究所(WhiteheadInstituteforBiomedicalResearch)进行交流,于年获芝加哥大学丰田技术学院(ToyotaTechnologicalInstituteatChicago)计算机科学博士学位。彭健博士的主要研究领域为生物信息学、化学信息学和机器学习,其合作开发的算法在多项科学挑战赛中获得佳绩,包括蛋白质结构预测技术的关键测试(CASP),及转化医学和药物基因组学的DREAM挑战。彭健博士还是Overton奖(OvertonPrize)、美国自然科学基金委员会杰出青年奖(NSFCAREERAward)、艾尔弗?斯隆基金会斯隆研究奖(AlfredP.SloanResearchFellowship)的获得者。
报告内容
怎么理解氨基酸序列与蛋白质结构、蛋白质功能之间的关系?这是我们想探索的终极问题。我们从自然进化中学习、从实验数据中学习,用深度学习方法从氨基酸序列出发去预测蛋白质的结构和功能。这种方法能减少耗时昂贵的湿实验,大大提升蛋白研究与药品开发的效率。
蛋白质的基础结构是氨基酸序列。从数据的形式上,可以将蛋白质抽象为字符串,每个字符为蛋白质的组成元件——氨基酸。不同的氨基酸序列形成了不同的蛋白质结构,我们希望理解这些字符串如何真正形成蛋白质的结构。
蛋白质通常由有20种氨基酸组成,它们是不同生物体共同的基本元素。各种氨基酸共有的结构称为主链(Backbone),不同的结构称为侧链(SideChain)或残基(Residue)。不同氨基酸的侧链往往具有不同的物理化学特性,例如亲水性、疏水性、大小不同,这些特性会影响氨基酸之间的组合关系,进而影响蛋白质结构。
当蛋白质从细胞中合成后,会产生不同的结构,通常认为不同的蛋白序列会形成不同的三维结构,这些不同的三维结构带来了多种多样的蛋白质功能。比如有些蛋白质可以作为分子开关,可以开启或关闭其他蛋白质的功能;有些蛋白质作为酶,可以协助完成生化反应;不同蛋白质可以协同合作,形成像电路一样的通路(Pathway)。右图是一个信号通路,细胞外的信号会一层层地通过信号分子传到细胞内,影响转录因子,从而改变蛋白的表达,使细胞对外界反应作出应答。
为何要研究蛋白质的结构呢?实质上研究结构是为了更好地理解功能。例如蛋白激酶(Kinase)将ATP上的磷酸基团转移到特定蛋白质的残基上进行磷酸化,从而将信号在蛋白质之间传递。从右图可以看到激酶有个深深的“口袋”结构,口袋的最深处是ATP的结合位点,与之结合的底物(Substrate)在外。蛋白激酶的结构对于研究癌症非常重要,假设抑制某种蛋白激酶的功能有利于杀死癌细胞,那么我们可以针对它的结构,设计设计小分子药物,将口袋的入口堵塞,从而使该蛋白激酶无法正常工作。
我们最终想解决的问题是:如何理解蛋白序列与蛋白结构、蛋白功能的关系?一般来说,如果蛋白质序列正常,那它的结构和功能也正常;如果序列发生了变异,比如一种有害的变异,那它可能会折叠得很奇怪,从而导致异常的功能,例如它可能导致细胞凋亡、引发疾病等。事实上,理解蛋白质如何折叠对理解各种脑部疾病帮助很大。
彭健教授此次讲座讨论的第一个问题是一个人类研究了超过半个世纪的问题——蛋白质如何折叠。我们希望理解一个蛋白质如何从氨基酸序列,通过水分子的作用、分子间的长程关系等,一步步形成具有功能的蛋白质,如图。这个问题最早是一个生物物理问题,但作为计算机科学的研究者,其实可以从数据出发,把问题简化为寻找一个从字符串到3D结构的映射。目前为止,人们在此问题上有一定突破(去年的AlphaFold2),但仍未完全解决。
近十年来,随着算力、数据、模型的发展,人们在此问题上取得了一定进展。特别是数据的发展很迅速,现在已经有超过17万个蛋白质结构被解出。但是,被解出的人类蛋白质结构只对应30%的人类基因,还有30%的同源蛋白可以作为预测人类蛋白结构的模板,其他的蛋白质结构都是未知的。这其中包含两种原因:一方面,人类蛋白分子量更大、结构域(Domain)更多、蛋白之间的相互关系比较复杂;另一方面,目前没有很好的技术求解大的蛋白,虽然现在的冷冻电镜可以帮助求解,但其分辨率不高。因此,蛋白质结构预测是一个亟需解决的问题。
下图展示了在蛋白质结构预测任务上比较成功的软件,其中包括彭健教授参与的RaptorX模型。事实上,现在是参与蛋白质结构预测研究的好时机。右下图展示了从年开始蛋白质结构预测精度大大提高,这是由于不同的预测范式被提出,同时机器学习方法也开始应用进来。
下面介绍蛋白质结构研究的一些方法。通常我们得到序列后,先从数据库搜索来自不同物种的与目标蛋白同源的蛋白,将这些蛋白做多序列对比(Multi-sequencealignment),之后再用不同模型处理多序列对比的结果。传统方法是基于模板的建模:可以用图模型、隐马尔可夫模型等模型对蛋白质结构进行描述,在数据库中寻找与目标蛋白类似的模板蛋白,再通过成对对比(PairwiseAlignment)算法找到最相似的模板蛋白,最后根据模板以及几何上的约束产生目标蛋白的主链和侧链结构。这种基于模板的(Template-based)传统方法非常可靠和鲁棒。最近出现了一种基于残基接触的(Contact-based)新方法,它不依赖模板,而是寻找氨基酸之间的进化关系。在做序列比对时会观察到氨基酸之间存在关联性,我们可以使用机器学习方法抽取有相关性的氨基酸之间的角度、方向信息,这些信息对结构预测有很大的帮助。预测得出的残基关系还可以用来优化传统方法得到的主链结构。这种新方法在最近几年比较流行,它可以大大提高结构预测的精度。
这种新方法的核心思想是:如果两个氨基酸在进化中有相关性,那么它们可能存在某种关联,比如它们的电性可能相关、大小可能相关、可能有共进化关系等。
近几年许多图模型都被应用到了结构预测问题上。例如考虑多序列比对的结果,若每一列的氨基酸相互独立,则每一个蛋白序列的概率等于各氨基酸的概率的乘积,可以写成指数函数(势函数)的形式。考虑氨基酸的两两关联性,要再在势函数中加上一项,刻画进化中的相关性。用无向图模型从数据中学习模型参数,预测空间结构。
这一目标函数不能精确解,通常利用一些近似方法,例如平均场近似、高斯近似等。不同的近似可以推出不同的算法,这一算法比直接比较相关性的模型具有更高的准确度,但模型只能预测比较明显的残基。
彭健教授首次将CV、NLP领域的模型引入蛋白质结构预测问题,例如基于卷积神经网络的DeepContact模型。将长度为L的蛋白序列对应的L×L的相关性矩阵视为图片,用卷积神经网络处理,输出距离矩阵,进而建立三维的蛋白质结构。从下面第三张图可以看到模型的输出结果与真实的距离矩阵比较接近。这一方法在CASP12比赛中取得了非常优越的成绩。
下图展示了最近几年出现的一些基于接触的新模型,它们都用了很深的ResNet,加入了转角、对角等监督信号,在结构预测上取得了较好的提升。
这个领域较大的突破是去年的AlphaFold2。这里展示两个令人震惊的结果,如下图是两个新冠病*的蛋白质,它们与数据库里的已知蛋白结构差异较大,其他模型预测的结果几乎等同于随机预测结果,但AlphaFold2在α螺旋、β折叠的结构上很精准。相信蛋白质结构预测技术在未来几年会有广阔的应用前景。
本次讲座的第二个部分是蛋白质功能预测。与结构预测不同,功能预测的输出更简单,往往是简单的分类、回归问题。这一问题也具有广泛的应用,例如提高抗体与抗原的结合能力、提高荧光蛋白的荧光效率、提高Cas9蛋白的特异性以降低基因编辑的错误率。
定义序列对应功能的强度值(Fitness),蛋白质功能预测就是在序列空间中寻找最大的强度值,这犹如在海洋中找寻孤岛上的山峰。这与其他机器学习的数据不一样,由于大部分蛋白没有功能,数据的稀疏性很高,且搜索空间很大,依靠湿实验探索是不可能完成的。
这时机器学习的优越性就展现出来。相比湿实验从引入变异到合成、筛选、给出评价,再将比较好的结果作为输入再来一轮合成筛选,其中的实验价格昂贵、时间开销大。相比而言,用机器学习做筛选,对变异蛋白的功能进行预测以指导湿实验,可以大大降低成本。同时,实验数据又可以帮助更新模型参数。目前已有一些功能预测的模型,它们都具有对重要变异敏感、可预测长程交互的优良性质。
目前已有的模型借鉴了CV、NLP领域的一些方法,例如Attention机制、LSTM、CNN等。这些方法可用于预测激酶与肽、蛋白与RNA、激酶与药物的绑定作用等许多场景。但是这些监督学习存在过拟合问题,同时标注数据稀缺也限制了它们的应用。
由于标签数据少,人们还尝试了非监督模型例如预训练模型Transformer。使用预训练模型的效果比直接使用one-hot编码好,但结果对序列的变异不敏感。
另一种思路与结构预测类似,从同源序列入手,通过氨基酸间的相关性学习序列特征,再基于特征预测功能。这种方法与传统方法相比,预测值与真实值的相关性很强,几乎达到了两轮湿实验的相关性。
最后,彭健教授展望了未来努力的方向。一方面,针对数据量少的问题,未来可以使用迁移学习。另一方面,机器学习可以与实验相结合用在分子发现领域上,从分子结构出发、集成空间数据,利用图模型对小分子进行预测。
精彩回顾