【论文标题】AlphaFold2-aware protein-DNA binding site prediction using graph transformer

【作者团队】Qianmu Yuan,  Sheng Chen, Jiahua Rao,  Shuangjia Zheng, Huiying Zhao,  Yuedong Yang

【发表时间】2021/12/29

【机 构】中山大学等

【论文链接】https://doi.org/10.1101/2021.08.25.457661

【代码链接】https://github.com/biomed-AI/GraphSite

【在线链接】https://biomed.nscc-gz.cn/apps/GraphSite

蛋白质与DNA的相互作用在生物系统中起着至关重要的作用,确定蛋白质与DNA的结合位点是对各种生物活动,如转录和修复,进行机理理解和设计新型药物的第一步。如何从蛋白质序列中准确识别DNA结合残基仍然是一项具有挑战性的任务。目前,大多数现有的基于序列的方法只考虑了顺序相邻的上下文特征,这对捕捉空间信息是有限的。基于最近AlphaFold2在蛋白质结构预测方面的突破,本文提出了一个精确的预测器GraphSite,用于识别基于AlphaFold2预测的结构模型的DNA结合残基。作者将结合位点预测问题转化为图节点分类任务,并采用基于Transformer的预训练模型,将蛋白质结构信息和AlphaFold2表征考虑在内。通过利用预测的蛋白质结构和图transformer,GraphSite大大改善了基于序列和结构的最新方法。该算法在181种蛋白质的独立测试集上得到进一步证实,GraphSite在AUPR和MCC上分别超过了最先进的基于结构的方法16.4%和11.2%。

上图显示了GraphSite的整体结构。蛋白质序列被输入到AlphaFold2以产生的蛋白表征和预测的蛋白质结构,从中提取距离图和DSSP。然后,单一表征、DSSP和序列衍生的特征PSSM和HMM被连接起来,形成节点特征向量,然后将其输入到具有k-nearest mask的距离图的图transformer模型,以学习DNA结合点模式。

Table 3.

上图展示了GraphSite与SOTA方法在两个测试集上的性能比较。GraphSite仍然明显优于其他所有方法,包括使用原生蛋白质结构的基于结构的方法。另一方面,当使用预测的结构作为输入时,本文的方法在AUPR和MCC上分别超过了最好的基于结构的方法GraphBind 16.4%和11.2%。这表明本文的方法是实用的,对于只有蛋白质序列而不是原生结构的情况,本文的方法要强大得多。