首发于 生物信息
基于AlphaFold2进行蛋白质结构预测的文章解析

基于AlphaFold2进行蛋白质结构预测的文章解析

01 蛋白质结构基础

基础介绍[^1]

  1. 蛋白质是一切生命系统的物质基础,密切每一个生理过程。
  2. 每个蛋白质因基酸链的组成、扭转、弯曲等等构成不同具有特异的结构,决定了蛋白质的功能。
  3. 一般情况下,蛋白质只有正确折叠为特定的3D构型,才能发挥相应的生物学功能。而蛋白质四级结构结构的折叠,受到大量非共价相互作用的影响。
  4. 想要从分子水平上了解蛋白质的作用机制,就需要精确测出蛋白质的3D结构。


形成稳定分子结构所参与作用的力

目前观测蛋白质空间结构的方法

实验观测:
X-ray
冷冻电镜
核磁共振 中子散射

实验观测的局限: 没有同源蛋白的结构信息,很难预测结构 测定成本过高 * 需要结晶,但可结晶的蛋白质只占少数

结构预测 物理相互作用(从头计算法) 序列共进化 拓扑结构重构 综合法

结构预测的局限: 没有同源蛋白的结构信息,很难预测结构 准确性

总结:核磁共振的精度比较低,分辨度和灵敏度都不足

02 Alphafold预测蛋白质结构

一般深度神经网络building model过程 – 以卷积神经网络为例

一般以数据处理,构建初始模型,训练模型优化参数等过程为主,以MINIST手写体识别为例。


Alphafold中使用deep Learning方法的介绍

Transformer ^2 一种基于 encoder-decoder 结构的模型,Transformer使用注意力机制兴起于NLP领域,用于处理一连串的文本序列。并加入self-attention能帮助当前节点不仅仅只关注当前的词,从而能获取到上下文的语义,增加解码效果,而氨基酸序列正是和文本类似的数据结构,AlphaFold2利用多序列比对,把蛋白质的结构和生物信息整合到了深度学习算法中。

如下图展示Transformer的多头自注意力模型[^3]


self-attention可以不同参数下形成多注意力头,增加模型泛化能力。


在氨基酸文本中,序列上的所有位置的残基对单一残基的注意力来表示如下:


Alphafold工作流水线介绍[^4][^5]

AlphaFold2里使用目标氨基酸序列、MSA、模板作为输入,直接end to end的预测了目标的三维结构,使用了Transformer进行预训练。
名词解释:

1. MSA指的是Multiple Sequence Alignment,多序列对齐,指的是把同源的多个氨基酸序列进行对齐之后进行序列对比,对于任意两个氨基酸序列,可以通过补空位,左右移动位置等等,使得匹配的全局得分达到最高,此时我们就得到了两条氨基酸序列的对齐,这样的目的在于通过共进化分析找到保守区域和其他特征,相似性90%以上的氨基酸序列的MSA没什么意义,因为太像了,留一条就够了;相似性30%以下的氨基酸序列MSA也没什么意义,因为太不像了很可能不是同源的。
2. Evoformer块,比对后的两组信息会组成一个48block的Evoformer块,然后得到较为相似的比对序列,Evoformer 模块的关键创新是在 MSA 内交换信息的新机制和允许直接推理空间和进化关系的配对表示。蛋白质的每个残基的旋转和平移形式(全局刚体框架)。这些表示在微不足道的状态下初始化,所有旋转设置为身份,所有位置设置为原点,但快速开发和完善具有精确原子细节的高度准确的蛋白质结构。这一部分的关键创新包括打破链原子结构以允许同时对结构的所有部分进行局部细化,一种新颖的等变变换器允许网络隐式推理未表示的侧链原子,以及一个损失项残基的方向正确性的重要权重。在结构模块和整个网络中,通过反复将最终损失应用于输出,然后将输出递归地提供给相同的模块来强化迭代细化的概念。使用整个网络的迭代细化显着提高了准确性,而额外的训练时间很少。

3. pairwise features:每个残基之间都有一个隐状态


搜索同源模板

通过各类数据库比对软件在各大主流数据库中搜索同源模板。

特征构造

特征描述,包括对氨基酸的描述,蛋白质序列的描述,氨基酸之间空间位置的信息描述表示等。

通过热编码的方式将氨基酸的文本序列转化成热图矩阵。


特征表示

这一步骤定义MSA中的信息向Pair representation转换的过程,主要通过横向和纵向的self-attention的方式进行实现。 横向attention就是每个氨基酸序列里的self-attention 纵向attention是相同位置的去看其他氨基酸序列里是否被替换了氨基酸还是大家都相同


MSA表示残基对、信息相互转换

这个模块主要就是基于上一步定义的两个特征对象,在信息从MSA提取到Pair representation,不过实现的方式稍显复杂,大致流程如下:


  1. 从MSA中提取蛋白质共变信息
    主要包括横向和纵向的self-attention,更新原有的MSA representation,不过在横向的self-attention过程中,加了使用pairwise features作为后attention上的一个bias。


  1. 将蛋白质共变信息加入到Pair representation中
    取任意一对残基(i,j)的特征,计算外积均值以后更新到残基对表示中,这里已经将MSA representation转化为初始的Pair representation。


  1. 通过周围残基对当前残基的信息更新,这里其实也是采用了attention的方式进行实现的
  2. 通过两个残基共起点或共终点的边来更新边


  1. 通过某个残基出发或者终止的所有边来更新边


抽象到具象

将残基间的转角信息等加入,比对序列进一步组合8 blocks的结构模型,从而直接构建出蛋白质的3D结构,最后两步过程还会进行3次循环,可以使预测更加准确。 1. Invariant point attention (IPA) single repr是指初始的MSA,去掉同源模板只有目标序列的的,以及把所有残基都从坐标原点初始化然后再去计算更新的backbone frames,最终预测出具体的3D原子坐标。。
这些旋转和平移,代表 N-Cα-C 原子的几何形状,优先考虑蛋白质骨架的方向,以便每个残基的侧链位置在该框架内受到高度限制。相反,肽键几何形状完全不受约束,并且在应用结构模块期间观察到网络经常违反链约束,因为打破此约束允许对链的所有部分进行局部细化,而无需解决复杂的闭环问题。在微调过程中,通过违反损失项来鼓励满足肽键几何结构。只有在 Amber力场中的梯度下降结构的预测后松弛,才能实现肽键几何形状的精确执行。 backbone frames:将每个残基表示为一个自由浮动的骨架(蓝色三角形)和侧链的卡角(绿色圆圈)。相应的原子结构如下所示:


在计算中,每一层都去更新single repr和backbone frames(每个残基一个backbone frame,每个backbone frame记录了从局部坐标系到全局坐标系的欧几里得变换),而计算得到的pair features只在更新single repr的attention层中计算成一个bias。


  1. Backbone update - 全局坐标系的欧几里得变换


  1. 模型预测准确性评价指标 这两篇文献里提及了诸多的模型准确性的评价指标,有针对局部模型最优化、有全局最优化等指标。


  1. 构建损失函数 损失函数的构建是为了知道模型优化时的方向,文章里提出了真实模型到预测模型的很多损失值,如下:


03 结果简述

预测结果评价

  1. 与其他参赛的预测模型准确率进行一致性评价
  2. RMSD95:95%残留覆盖率下的α均方根偏差
  3. RMSD95-Cα:组成蛋白质主链骨架的叠加原子之间的距离中位数

图中,AlphaFold:0.96 Å(CI = 0.85 Å - 1.16 Å),Last best G009:2.8 Å(CI = 2.7 Å - 4.0 Å),AlphaFold预测效果远远好过其他参数模型。


  1. 有无共进化模板对模型准确性的影响 蛋白质中两个碳原子的距离1.4Å,可见AlphaFold基本实现了亚原子层面的高精度建模,由于部分蛋白质N端氨基酸折叠无序,所以结构无法预测;无共进化模板情况下,仍旧可以高精度的进行结构预测。


  1. 全局与局部预测准确性的相关性、主链与侧链准确性的相关性
  2. pTM 和全链 TM 分数之间的相关性。最小二乘线性拟合 TM 分数 = 0.98 * pTM + 0.07 (Pearson r=0.85)。 (N=10,795 蛋白质链)。TM-score应能更好地反映全局而不是每个单独结构域的准确性。
  3. 主链精度和侧链精度之间的相关性。过滤到具有任何观察到的侧链和分辨率优于 2.5 Å 的结构(N=5,317 蛋白质链);侧链进一步过滤到 B 因子 < 30 Å2。如果预测的扭转角在 40 度以内,则旋转异构体被归类为正确的。每个点汇总了一系列 lDDT-Cα,箱大小超过 70 lDDT-Cα 2 个单位,否则为 5 个单位。点对应于平均准确度;误差线是基于每个残差的平均值的 95% 置信区间 (Student-t)
  4. 与链上的真实准确度相比的置信度得分。最小二乘线性拟合 lDDT_Cα = 0.997 * pLDDT - 1.17 (Pearson r=0.76)。 (N=10,795 蛋白质链)。


  1. 全链主干 RMSD 的直方图(Cα RMSD 覆盖率 95%);误差线是 95% 的置信区间(泊松)。总体中值为 1.46 Å。请注意,此度量将对域打包和域准确性高度敏感;对于某些包装不确定或包装错误的链条,预计较高的 RMSD。
  2. 不同蛋白质链长度预测结果准确性评价 结果中可以发现,肽链的长度对结果的准确性有实质性的影响,且存在临界点;另外,蛋白质不同的异构形式对结果的预测结果也有较大的影响。


  1. MSA 深度和跨链接触的影响 - 模型缺陷
  2. 当平均比对深度小于~30 个序列时,准确度会大幅下降; MSA 深度超过约 100 个序列的改进导致小增益的阈值效应
  3. 对多亚基的蛋白质复合体的精准度有较大误差 (a) 在我们的训练数据截止后,PDB 的冗余减少集的主干精度 (lDDT-Cα),仅限于蛋白质,其中最多 25% 的远程接触位于不同的异聚体链之间。我们进一步考虑了基于 30% 序列同一性的模板覆盖率的两组蛋白质:覆盖超过 60% 的链(N=6,743 个蛋白质链)和覆盖少于 30% 的链(N=1, 596 个蛋白质链) . MSA 深度是通过计算 MSA 中每个位置的非间隙残基的数量来计算的(使用 Neff 加权方案,详见方法)并取残基的中值。曲线是通过高斯核平均平滑获得的(窗口大小为 log10 Neff 中的 0.2 个单位);阴影区域是使用 10,000 个样本的 bootstrap 估计的 95% 置信区间。 在没有输入化学计量和只有弱模板的情况下正确预测了交织的同源三聚体(蓝色被预测,灰色被预测)


04 技术总结与未来展望

方法总结

展示了一种联合嵌入多序列比对 (MSA) 和成对特征的输出和损失估计新架构,可实现准确的端到端结构预测 训练神经网络来对regression target进行逐步迭代精化(Iterative refinement) 广泛运用了Attention架构。一个二维的表可以横着做再竖着做attention,一个图可以在各种局部结构上做attention,从而不断精化embedding的结构。 用带标签数据(氨基酸序列与三维坐标的对应)先训练一遍网络,然后用训练完的网络在无标签数据(仅有氨基酸序列)上预测一遍生成新的数据集,只保留预测得好的部分,然后把这两者混合拿来再进行训练 类似BERT的masking操作,对各种输入信息加噪音要求输出稳定,提高了鲁棒性和泛化能力。

实际价值

  1. 糖代谢 – 血糖平衡 -葡萄糖-6-磷酸酶 从预测来看,在葡萄糖-6-磷酸醃的结存在一个保守的谷氦酸袋稳定在闭的构象他残基成盐桥。该位点也是推定的活性位点中溶剂暴露最多的残基,表明可能具有门控功能残基以前从未被讨论过。


  1. WFS1基因 - Wolfram综合征是(神经退行性疾病)- 蛋白质招募


  1. 脂肪的生成与代谢 – 脂肪肝 - 二酰基甘油O-酰基转移酶2

现阶段局限性

蛋白质预测本身局限

参考与引用

[^1]: 为什么说 AlphaFold 2 足以改变全人类

[^3]: The Illustrated Transformer
[^4]: Jumper J , Evans R , Pritzel A , et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021:1-11.
[^5]: Tunyasuvunakool, K., Adler, J., Wu, Z. et al. Highly accurate protein structure prediction for the human proteome. Nature 596, 590–596 (2021)

[^6]: 【公开课】基于AI预测蛋白质折叠的三维空间结构——AlphaFold2原理及安装使用

深圳SEO优化公司鹤壁网络推广报价观澜SEO按天计费观澜网站优化推广漯河网站定制南联网站改版多少钱宣城SEO按天扣费报价北京百度关键词包年推广推荐福永SEO按天扣费哪家好飞来峡网页制作价格平湖网站优化报价本溪网站设计哪家好临汾百度竞价报价吉祥模板推广推荐黑河企业网站建设多少钱黄冈seo网站优化推荐爱联英文网站建设报价淮南百姓网标王天津SEO按天收费柳州模板推广哪家好仙桃网络推广哪家好大运网站开发聊城网站制作设计报价大同网站搭建报价常州关键词按天计费报价汉中关键词排名价格淮北外贸网站设计推荐莱芜网站推广方案公司金华百度seo价格咸阳英文网站建设哪家好大理网站改版多少钱歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化