本发明涉及生物信息技术领域,尤其涉及一种蛋白质分子中RNA结合位点的预测方法及系统。
背景技术:
蛋白质和RNA(核糖核酸)是生命化合物中最重要的两种生物大分子。蛋白质和RNA间的相互作用在很多重要的生命活动中扮演着不可或缺的角色,比如蛋白质合成,转录(转录是遗传信息由DNA转换到RNA的过程)后的修改,调节基因表达以及许多病毒的复制和组装。取得关于蛋白质RNA相互作用残基的信息有助于理解许多和蛋白质RNA相互作用有关的很多生物学活动的机制和功能。此外,识别蛋白质RNA相互作用位点会对基于RNA的药物设计有着直接的帮助。因此,近几年预测RNA绑定的蛋白质以及它们相互作用的残基引起了广泛的关注。
过去的几年里,已经有很多研究从结构或者是序列来分析和预测了蛋白质RNA混合体中蛋白质和RNA之间相互作用残基。基于很多不同的特征,多种机器学习算法已经被应用到这个问题上了,比如基于不同特征的神经网络分类器,支持向量机模型和朴素贝叶斯分类器等。
技术实现要素:
本发明目的在于公开一种蛋白质分子中RNA结合位点的预测方法及系统,以有效预测RNA和蛋白质结合位点,解决生物实验的成本昂贵和实验周期长等问题。
为实现上述目的,本发明公开一种蛋白质分子中RNA结合位点的预测方法,包括:
选取训练样本集和检验样本集;
对RNA蛋白质复合物的特征进行编码;
以目标类别与候选特征之间的最大相关,以及候选特征与已经选出特征之间的最小冗余为规则筛选特征,并对筛选出的特征进行排序,使用增量特征选择方法确定最佳的特征数和最优的特征集;
使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型,对各子模型所对应的基分类器进行加权融合,产生联合后的结果分类器;
将要测试的数据输入结果分类器,通过各子模型的投票获取最终的预测结果。
为实现上述目的,本发明还公开一种蛋白质分子中RNA结合位点的预测系统,包括:
数据库,用于选取并存储训练样本集和检验样本集;
第一处理模块,用于对RNA蛋白质复合物的特征进行编码;
第二处理模块,用于以目标类别与候选特征之间的最大相关,以及候选特征与已经选出特征之间的最小冗余为规则筛选特征,并对筛选出的特征进行排序,使用增量特征选择方法确定最佳的特征数和最优的特征集;
第三处理模块,用于使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型,对各子模型所对应的基分类器进行加权融合,产生联合后的结果分类器;
第四处理模块,将要测试的数据输入结果分类器,通过各子模型的投票获取最终的预测结果。
本发明具有以下有益效果:
通过mRMR-IFS筛选特征,保留主要的影响特征,减少噪声特征对预测准确性的影响,显著提高了蛋白质RNA结合位点预测的准确性,解决了生物实验成本昂贵和实验周期长等问题。
下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的公开的蛋白质分子中RNA结合位点的预测方法流程图;
图2是来获取蛋白质链和创建每个数据集的方法示意图;
图3是各类特征的重要性比较,基于RBP170数据集对各类特征按最大相关及最小冗余特性进行排序,并统计前N个特征中各类特征所占的数量,数量越大,其对模型的影响程度越大;特征种类包括三大类,即位点特征,欧式距离特征,Voronoi结构特征;
图4为RBP170数据集上的mRMR-IFS曲线,包括MCC和AUC值,当MCC与AUC的均值最大时,模型的性能最好,在该图示中,位置在上的曲线为AUC曲线,位置在下的曲线为MCC曲线;
图5为在RBP170数据集上不同分类器的ROC曲线;
图6为在独立测试集RBP101上不同分类器的ROC曲线;
图7为模型预测的RNA结合位点与真实的RNA结合位点之间的对比,其中,图(a)左右分别是旋转180度的真实结合位点图示,图(b)是对应图(a)的预测结合位点图示。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例1
本实施例公开一种蛋白质分子中RNA结合位点的预测方法,如图1所示,包括:
步骤S1、选取训练样本集和检验样本集。
可选的,如图2所示,本实施例中的样本集可以采用公开的PDB(Protein Data Bank)数据库,该训练样本集可以采用其中的数据库RBP170,独立的检验样本集可以采用其中的数据库RBP101。其中训练样本主要用来学习训练,检验样本主要用于测试检验。
步骤S2、对RNA蛋白质复合物的特征进行编码。
可选的,本实施例可以将基于序列的特征:如物理化学特征、侧链环境、特异位点得分矩阵、进化保守型得分、无序度、局部结构熵等;以及基于结构的特征:如相对溶剂可及面积、二级结构、相互作用倾向、原子和残基接触、实体统计赝势、Voronoi触点和势、地形指数与SCE评分、和结构邻居结合得到了63个位点特征,63个Euclidean特征(即欧式距离特征)以及63个Voronoi结构特征。如图3所示的各类特征的重要性比较,其中,基于RBP170数据集对各类特征按最大相关及最小冗余特性进行排序,并统计前N个特征中各类特征所占的数量,数量越大,其对模型的影响程度越大;特征种类包括三大类,即位点特征,欧式距离特征,Voronoi结构特征。
步骤S3、以目标类别与候选特征之间的最大相关,以及候选特征与已经选出特征之间的最小冗余为规则筛选特征,并对筛选出的特征进行排序,使用增量特征选择(IFS)方法确定最佳的特征数和最优的特征集。
该步骤中,候选特征同上,可以包括基于序列的特征和基于结构的特征;其中:
基于序列的特征包括:物理化学特征,侧链环境,特异位点得分矩阵,进化保守型得分,无序度,局部结构熵;
基于结构的特征包括:相对溶剂可及面积,二级结构,相互作用倾向,原子和残基接触,实体统计赝势,Voronoi触点和势,地形指数与SCE评分,并考虑和结构邻居的结合。
该步骤S3中,即通过最大相关最小冗余(mRMR)筛选特征,可选的,提取特征时所使用的最大相关及最小冗余以互信息MI来度量,定义为:
其中x和y是两个随机变量,p(x,y)是两个随机变量的联合密度函数,p(x),p(y)是x,y的边缘分布,所提取的特征列表为:F={f1,f2,...,fi),其中1≤i≤n。
进一步的,在该步骤S3中,确定最佳的特征数和最优的特征集可以按特征的最大相关及最小冗余对特征进行排名,并绘制mRMR-IFS曲线,然后从曲线中选择使MCC和AUC的均值最大时对应的特征数目作为最终分类器的特征集大小;其中该mRMR-IFS曲线以MCC(马氏相关系数)值和AUC(Area under Curve)值作为y坐标,以特征数目Fi的下标i作为x坐标轴,i=1,2,...,n。如图4所示,该特征集的优选数目可设置为180。
步骤S4、使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型,对各子模型所对应的基分类器进行加权融合,产生联合后的结果分类器。
该步骤即训练迭代决策树模型。在该步骤S4中,可以通过Boosting技术予以实现。其中,通过Boosting框架对训练样本集的操作,得到不同的训练样本子集,用该样本子集去训练生成基分类器;每得到一个样本集就用该基分类算法在该样本集上产生一个基分类器,这样在给定训练轮数n后,就可产生n个基分类器,然后Boosting框架算法将这n个基分类器进行加权融合,产生一个最后的结果分类器,在这n个基分类器中,每个单个的分类器的识别率不一定很高,但他们联合后的结果有很高的识别率,这样便提高了该弱分类算法的识别率。例如:使用Boosting技术建模时,第一次迭代每个样本被选入训练样本集的概率或者说其权重相同,模型建立完毕,重新调整各样本的权重,使它们进行第二次迭代,此次权重调整的原则是:上次未能正确预测的样本权重增大,上次正确预测的样本权重减小;第三次迭代重复第二次迭代,以此类推;其中,样本权重越大,其被选入训练样本集的可能性越大;由于对预测结果模棱两可的样本往往位于边界处,故多次迭代后,边界处的样本权重显著性增大。
优选的,本实施例所采用的迭代决策树算法如下:
输入:
数据集:
损失函数:L(y,Θ(x));
迭代次数=M;
输出:
1)、初始化
2)、从m=1到M,重复步骤3)到6);
3)、计算损失函数的负梯度作为残差值;
4)、通过使用输入x的Logistic函数找到一个合适的分类模型,并得到βh(x;α)的估计αm;
5)、通过最小化L(yi,Θm-1(xi)+βh(xi,αm))得到估计βm;
6)、更新Θm(x)=Θm-1(x)+βmh(x;αm);
7)、返回
步骤S5、将要测试的数据输入结果分类器,通过各子模型的投票获取最终的预测结果。与上述Boosting技术对应的,在投票阶段,由于经过K次迭代而产生的K个模型;Boosting采用加权投票方式,不同模型按其误差大小确定权重;通常,误差大的权重小,误差小的权重大。权重大的对结果影响大,权重小的对结果影响小。这样经过K个模型的加权投票结果,是最为稳健的。
采用本发明的上述方法分别在RBP170数据集及独立测试集RBP101上所确定的分类器的ROC曲线与其他分类器的对比如图5及图6,其中,PredRBR AUC所对应的曲线为本发明的实验结果,相比于其他分类器,具有更好的实验结果。
依托上述步骤,如图7所示,以NusB-NusE-BoxA RNA复合体为对象,本案申请人研究了NusB上的RNA捆绑残基(3R2C:A),通过对TP(正确的肯定数目)、FN(漏报,没有找到正确匹配的数目)、FP(误报,没有的匹配不正确)、TN(正确拒绝的非匹配数目)的统计,对其结合位点整个预测的准确性ACC是0.88,和通过X射线晶体衍射或者核磁共振等方法实验实际测出的RNA结合位点相比较,预测结果非常准确。其中,三联NusB-Nus-BoxA RNA复合体(PDB代码为3R2C)是启动进行的转录抗终止作用所需的整个抗终止复合体,对解释关键蛋白质-蛋白质和蛋白质-RNA相互作用具有重要意义。
综上,本实施例公开的蛋白质分子中RNA结合位点的预测方法,能综合考虑了结构特征,序列特征,以及邻居特征,能有效的考虑各种可能对预测结果产生影响的因素,并进一步通过mRMR-IFS筛选特征,从而保留主要的影响特征,减少噪声特征对预测准确性的影响,本发明可以显著提高蛋白质RNA结合位点预测的准确性,解决了生物实验成本昂贵和实验周期长的问题。
实施例2
与上述方法实施例相对应的,本实施例公开一种蛋白质分子中RNA结合位点的预测系统,包括:
数据库,用于选取并存储训练样本集和检验样本集;
第一处理模块,用于对RNA蛋白质复合物的特征进行编码;
第二处理模块,用于以目标类别与候选特征之间的最大相关,以及候选特征与已经选出特征之间的最小冗余为规则筛选特征,并对筛选出的特征进行排序,使用增量特征选择方法确定最佳的特征数和最优的特征集;
第三处理模块,用于使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型,对各子模型所对应的基分类器进行加权融合,产生联合后的结果分类器;
第四处理模块,将要测试的数据输入结果分类器,通过各子模型的投票获取最终的预测结果。
优选的,所述候选特征包括基于序列的特征和基于结构的特征;其中:
基于序列的特征包括:物理化学特征,侧链环境,特异位点得分矩阵,进化保守型得分,无序度,局部结构熵;
基于结构的特征包括:相对溶剂可及面积,二级结构,相互作用倾向,原子和残基接触,实体统计赝势,Voronoi触点和势,地形指数与SCE评分,并考虑和结构邻居的结合。
优选的,该系统提取特征时所使用的最大相关及最小冗余以互信息MI来度量,定义为:
其中x和y是两个随机变量,p(x,y)是两个随机变量的联合密度函数,p(x),p(y)是x,y的边缘分布,所提取的特征列表为:F={f1,f2,...,fi),其中1≤i≤n。
优选的,该系统确定最佳的特征数和最优的特征集包括:按特征的最大相关及最小冗余对特征进行排名,并绘制mRMR-IFS曲线,然后从曲线中选择使MCC和AUC的均值最大时对应的特征数目作为最终分类器的特征集大小;其中mRMR-IFS曲线以MCC值和AUC值作为y坐标轴,以特征数目Fi的下标i作为x坐标轴,i=1,2,...,n。
优选的,上述系统所采用的迭代决策树算法如下:
输入:
数据集:
损失函数:L(y,Θ(x));
迭代次数=M;
输出:
1)、初始化
2)、从m=1到M,重复步骤3)到6);
3)、计算损失函数的负梯度作为残差值;
4)、通过使用输入x的Logistic函数找到一个合适的分类模型,并得到βh(x;α)的估计αm;
5)、通过最小化L(yi,Θm-1(xi)+βh(xi,αm))得到估计βm;
6)、更新Θm(x)=Θm-1(x)+βmh(x;αm);
7)、返回
同理,本实施例公开的蛋白质分子中RNA结合位点的预测系统,其能综合考虑了结构特征,序列特征,以及邻居特征,能有效的考虑各种可能对预测结果产生影响的因素,并进一步通过mRMR-IFS筛选特征,从而保留主要的影响特征,减少噪声特征对预测准确性的影响,本发明可以显著提高蛋白质RNA结合位点预测的准确性,解决了生物实验成本昂贵和实验周期长的问题。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
深圳SEO优化公司鹤壁外贸网站制作推荐武汉关键词按天收费价格来宾百姓网标王推广推荐阿里推广网站价格亳州网站搭建哪家好厦门网站推广方案报价德阳关键词排名价格海南百搜标王哪家好周口网站优化推广推荐长葛百度竞价包年推广公司伊春SEO按天收费江门高端网站设计多少钱贵阳网络推广公司吉林设计网站报价黄山企业网站建设哪家好固原建网站价格郑州品牌网站设计推荐昌吉seo排名黄南网站推广报价松原网站推广方案报价嘉兴百度网站优化推荐阜新外贸网站制作多少钱鹤壁网站关键词优化公司凉山模板制作保山品牌网站设计珠海百度标王推荐荆州百姓网标王推广哪家好南联设计网站公司淄博企业网站设计公司青岛网站优化软件哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运