中山大学 | 使用图Transformer进行结合AlphaFold2的蛋白质-DNA结合位点预测

【论文标题】AlphaFold2-aware protein-DNA binding site prediction using graph transformer

【作者团队】Qianmu Yuan, Sheng Chen, Jiahua Rao, Shuangjia Zheng, Huiying Zhao, Yuedong Yang

【发表时间】2021/12/29

【机构】中山大学等

【论文链接】https://doi.org/10.1101/2021.08.25.457661

【代码链接】https://github.com/biomed-AI/GraphSite

【在线链接】https://biomed.nscc-gz.cn/apps/GraphSite

蛋白质与DNA的相互作用在生物系统中起着至关重要的作用，确定蛋白质与DNA的结合位点是对各种生物活动，如转录和修复，进行机理理解和设计新型药物的第一步。如何从蛋白质序列中准确识别DNA结合残基仍然是一项具有挑战性的任务。目前，大多数现有的基于序列的方法只考虑了顺序相邻的上下文特征，这对捕捉空间信息是有限的。基于最近AlphaFold2在蛋白质结构预测方面的突破，本文提出了一个精确的预测器GraphSite，用于识别基于AlphaFold2预测的结构模型的DNA结合残基。作者将结合位点预测问题转化为图节点分类任务，并采用基于Transformer的预训练模型，将蛋白质结构信息和AlphaFold2表征考虑在内。通过利用预测的蛋白质结构和图transformer，GraphSite大大改善了基于序列和结构的最新方法。该算法在181种蛋白质的独立测试集上得到进一步证实，GraphSite在AUPR和MCC上分别超过了最先进的基于结构的方法16.4%和11.2%。

上图显示了GraphSite的整体结构。蛋白质序列被输入到AlphaFold2以产生的蛋白表征和预测的蛋白质结构，从中提取距离图和DSSP。然后，单一表征、DSSP和序列衍生的特征PSSM和HMM被连接起来，形成节点特征向量，然后将其输入到具有k-nearest mask的距离图的图transformer模型，以学习DNA结合点模式。

Table 3.

上图展示了GraphSite与SOTA方法在两个测试集上的性能比较。GraphSite仍然明显优于其他所有方法，包括使用原生蛋白质结构的基于结构的方法。另一方面，当使用预测的结构作为输入时，本文的方法在AUPR和MCC上分别超过了最好的基于结构的方法GraphBind 16.4%和11.2%。这表明本文的方法是实用的，对于只有蛋白质序列而不是原生结构的情况，本文的方法要强大得多。

中山大学 | 使用图Transformer进行结合AlphaFold2的蛋白质-DNA结合位点预测

评论