蛋白质分子中RNA结合位点的预测方法及系统与流程

文档序号:12271989阅读:1012来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
蛋白质分子中RNA结合位点的预测方法及系统与流程

本发明涉及生物信息技术领域,尤其涉及一种蛋白质分子中RNA结合位点的预测方法及系统。



背景技术:

蛋白质和RNA(核糖核酸)是生命化合物中最重要的两种生物大分子。蛋白质和RNA间的相互作用在很多重要的生命活动中扮演着不可或缺的角色,比如蛋白质合成,转录(转录是遗传信息由DNA转换到RNA的过程)后的修改,调节基因表达以及许多病毒的复制和组装。取得关于蛋白质RNA相互作用残基的信息有助于理解许多和蛋白质RNA相互作用有关的很多生物学活动的机制和功能。此外,识别蛋白质RNA相互作用位点会对基于RNA的药物设计有着直接的帮助。因此,近几年预测RNA绑定的蛋白质以及它们相互作用的残基引起了广泛的关注。

过去的几年里,已经有很多研究从结构或者是序列来分析和预测了蛋白质RNA混合体中蛋白质和RNA之间相互作用残基。基于很多不同的特征,多种机器学习算法已经被应用到这个问题上了,比如基于不同特征的神经网络分类器,支持向量机模型和朴素贝叶斯分类器等。



技术实现要素:

本发明目的在于公开一种蛋白质分子中RNA结合位点的预测方法及系统,以有效预测RNA和蛋白质结合位点,解决生物实验的成本昂贵和实验周期长等问题。

为实现上述目的,本发明公开一种蛋白质分子中RNA结合位点的预测方法,包括:

选取训练样本集和检验样本集;

对RNA蛋白质复合物的特征进行编码;

以目标类别与候选特征之间的最大相关,以及候选特征与已经选出特征之间的最小冗余为规则筛选特征,并对筛选出的特征进行排序,使用增量特征选择方法确定最佳的特征数和最优的特征集;

使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型,对各子模型所对应的基分类器进行加权融合,产生联合后的结果分类器;

将要测试的数据输入结果分类器,通过各子模型的投票获取最终的预测结果。

为实现上述目的,本发明还公开一种蛋白质分子中RNA结合位点的预测系统,包括:

数据库,用于选取并存储训练样本集和检验样本集;

第一处理模块,用于对RNA蛋白质复合物的特征进行编码;

第二处理模块,用于以目标类别与候选特征之间的最大相关,以及候选特征与已经选出特征之间的最小冗余为规则筛选特征,并对筛选出的特征进行排序,使用增量特征选择方法确定最佳的特征数和最优的特征集;

第三处理模块,用于使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型,对各子模型所对应的基分类器进行加权融合,产生联合后的结果分类器;

第四处理模块,将要测试的数据输入结果分类器,通过各子模型的投票获取最终的预测结果。

本发明具有以下有益效果:

通过mRMR-IFS筛选特征,保留主要的影响特征,减少噪声特征对预测准确性的影响,显著提高了蛋白质RNA结合位点预测的准确性,解决了生物实验成本昂贵和实验周期长等问题。

下面将参照附图,对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是本发明优选实施例的公开的蛋白质分子中RNA结合位点的预测方法流程图;

图2是来获取蛋白质链和创建每个数据集的方法示意图;

图3是各类特征的重要性比较,基于RBP170数据集对各类特征按最大相关及最小冗余特性进行排序,并统计前N个特征中各类特征所占的数量,数量越大,其对模型的影响程度越大;特征种类包括三大类,即位点特征,欧式距离特征,Voronoi结构特征;

图4为RBP170数据集上的mRMR-IFS曲线,包括MCC和AUC值,当MCC与AUC的均值最大时,模型的性能最好,在该图示中,位置在上的曲线为AUC曲线,位置在下的曲线为MCC曲线;

图5为在RBP170数据集上不同分类器的ROC曲线;

图6为在独立测试集RBP101上不同分类器的ROC曲线;

图7为模型预测的RNA结合位点与真实的RNA结合位点之间的对比,其中,图(a)左右分别是旋转180度的真实结合位点图示,图(b)是对应图(a)的预测结合位点图示。

具体实施方式

以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

实施例1

本实施例公开一种蛋白质分子中RNA结合位点的预测方法,如图1所示,包括:

步骤S1、选取训练样本集和检验样本集。

可选的,如图2所示,本实施例中的样本集可以采用公开的PDB(Protein Data Bank)数据库,该训练样本集可以采用其中的数据库RBP170,独立的检验样本集可以采用其中的数据库RBP101。其中训练样本主要用来学习训练,检验样本主要用于测试检验。

步骤S2、对RNA蛋白质复合物的特征进行编码。

可选的,本实施例可以将基于序列的特征:如物理化学特征、侧链环境、特异位点得分矩阵、进化保守型得分、无序度、局部结构熵等;以及基于结构的特征:如相对溶剂可及面积、二级结构、相互作用倾向、原子和残基接触、实体统计赝势、Voronoi触点和势、地形指数与SCE评分、和结构邻居结合得到了63个位点特征,63个Euclidean特征(即欧式距离特征)以及63个Voronoi结构特征。如图3所示的各类特征的重要性比较,其中,基于RBP170数据集对各类特征按最大相关及最小冗余特性进行排序,并统计前N个特征中各类特征所占的数量,数量越大,其对模型的影响程度越大;特征种类包括三大类,即位点特征,欧式距离特征,Voronoi结构特征。

步骤S3、以目标类别与候选特征之间的最大相关,以及候选特征与已经选出特征之间的最小冗余为规则筛选特征,并对筛选出的特征进行排序,使用增量特征选择(IFS)方法确定最佳的特征数和最优的特征集。

该步骤中,候选特征同上,可以包括基于序列的特征和基于结构的特征;其中:

基于序列的特征包括:物理化学特征,侧链环境,特异位点得分矩阵,进化保守型得分,无序度,局部结构熵;

基于结构的特征包括:相对溶剂可及面积,二级结构,相互作用倾向,原子和残基接触,实体统计赝势,Voronoi触点和势,地形指数与SCE评分,并考虑和结构邻居的结合。

该步骤S3中,即通过最大相关最小冗余(mRMR)筛选特征,可选的,提取特征时所使用的最大相关及最小冗余以互信息MI来度量,定义为:

其中x和y是两个随机变量,p(x,y)是两个随机变量的联合密度函数,p(x),p(y)是x,y的边缘分布,所提取的特征列表为:F={f1,f2,...,fi),其中1≤i≤n。

进一步的,在该步骤S3中,确定最佳的特征数和最优的特征集可以按特征的最大相关及最小冗余对特征进行排名,并绘制mRMR-IFS曲线,然后从曲线中选择使MCC和AUC的均值最大时对应的特征数目作为最终分类器的特征集大小;其中该mRMR-IFS曲线以MCC(马氏相关系数)值和AUC(Area under Curve)值作为y坐标,以特征数目Fi的下标i作为x坐标轴,i=1,2,...,n。如图4所示,该特征集的优选数目可设置为180。

步骤S4、使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型,对各子模型所对应的基分类器进行加权融合,产生联合后的结果分类器。

该步骤即训练迭代决策树模型。在该步骤S4中,可以通过Boosting技术予以实现。其中,通过Boosting框架对训练样本集的操作,得到不同的训练样本子集,用该样本子集去训练生成基分类器;每得到一个样本集就用该基分类算法在该样本集上产生一个基分类器,这样在给定训练轮数n后,就可产生n个基分类器,然后Boosting框架算法将这n个基分类器进行加权融合,产生一个最后的结果分类器,在这n个基分类器中,每个单个的分类器的识别率不一定很高,但他们联合后的结果有很高的识别率,这样便提高了该弱分类算法的识别率。例如:使用Boosting技术建模时,第一次迭代每个样本被选入训练样本集的概率或者说其权重相同,模型建立完毕,重新调整各样本的权重,使它们进行第二次迭代,此次权重调整的原则是:上次未能正确预测的样本权重增大,上次正确预测的样本权重减小;第三次迭代重复第二次迭代,以此类推;其中,样本权重越大,其被选入训练样本集的可能性越大;由于对预测结果模棱两可的样本往往位于边界处,故多次迭代后,边界处的样本权重显著性增大。

优选的,本实施例所采用的迭代决策树算法如下:

输入:

数据集:

损失函数:L(y,Θ(x));

迭代次数=M;

输出:

1)、初始化

2)、从m=1到M,重复步骤3)到6);

3)、计算损失函数的负梯度作为残差值;

4)、通过使用输入x的Logistic函数找到一个合适的分类模型,并得到βh(x;α)的估计αm

5)、通过最小化L(yim-1(xi)+βh(xim))得到估计βm

6)、更新Θm(x)=Θm-1(x)+βmh(x;αm);

7)、返回

步骤S5、将要测试的数据输入结果分类器,通过各子模型的投票获取最终的预测结果。与上述Boosting技术对应的,在投票阶段,由于经过K次迭代而产生的K个模型;Boosting采用加权投票方式,不同模型按其误差大小确定权重;通常,误差大的权重小,误差小的权重大。权重大的对结果影响大,权重小的对结果影响小。这样经过K个模型的加权投票结果,是最为稳健的。

采用本发明的上述方法分别在RBP170数据集及独立测试集RBP101上所确定的分类器的ROC曲线与其他分类器的对比如图5及图6,其中,PredRBR AUC所对应的曲线为本发明的实验结果,相比于其他分类器,具有更好的实验结果。

依托上述步骤,如图7所示,以NusB-NusE-BoxA RNA复合体为对象,本案申请人研究了NusB上的RNA捆绑残基(3R2C:A),通过对TP(正确的肯定数目)、FN(漏报,没有找到正确匹配的数目)、FP(误报,没有的匹配不正确)、TN(正确拒绝的非匹配数目)的统计,对其结合位点整个预测的准确性ACC是0.88,和通过X射线晶体衍射或者核磁共振等方法实验实际测出的RNA结合位点相比较,预测结果非常准确。其中,三联NusB-Nus-BoxA RNA复合体(PDB代码为3R2C)是启动进行的转录抗终止作用所需的整个抗终止复合体,对解释关键蛋白质-蛋白质和蛋白质-RNA相互作用具有重要意义。

综上,本实施例公开的蛋白质分子中RNA结合位点的预测方法,能综合考虑了结构特征,序列特征,以及邻居特征,能有效的考虑各种可能对预测结果产生影响的因素,并进一步通过mRMR-IFS筛选特征,从而保留主要的影响特征,减少噪声特征对预测准确性的影响,本发明可以显著提高蛋白质RNA结合位点预测的准确性,解决了生物实验成本昂贵和实验周期长的问题。

实施例2

与上述方法实施例相对应的,本实施例公开一种蛋白质分子中RNA结合位点的预测系统,包括:

数据库,用于选取并存储训练样本集和检验样本集;

第一处理模块,用于对RNA蛋白质复合物的特征进行编码;

第二处理模块,用于以目标类别与候选特征之间的最大相关,以及候选特征与已经选出特征之间的最小冗余为规则筛选特征,并对筛选出的特征进行排序,使用增量特征选择方法确定最佳的特征数和最优的特征集;

第三处理模块,用于使用迭代决策树对所提取特征所对应的数据样本进行随机抽取并构造至少两个以上的子模型,对各子模型所对应的基分类器进行加权融合,产生联合后的结果分类器;

第四处理模块,将要测试的数据输入结果分类器,通过各子模型的投票获取最终的预测结果。

优选的,所述候选特征包括基于序列的特征和基于结构的特征;其中:

基于序列的特征包括:物理化学特征,侧链环境,特异位点得分矩阵,进化保守型得分,无序度,局部结构熵;

基于结构的特征包括:相对溶剂可及面积,二级结构,相互作用倾向,原子和残基接触,实体统计赝势,Voronoi触点和势,地形指数与SCE评分,并考虑和结构邻居的结合。

优选的,该系统提取特征时所使用的最大相关及最小冗余以互信息MI来度量,定义为:

其中x和y是两个随机变量,p(x,y)是两个随机变量的联合密度函数,p(x),p(y)是x,y的边缘分布,所提取的特征列表为:F={f1,f2,...,fi),其中1≤i≤n。

优选的,该系统确定最佳的特征数和最优的特征集包括:按特征的最大相关及最小冗余对特征进行排名,并绘制mRMR-IFS曲线,然后从曲线中选择使MCC和AUC的均值最大时对应的特征数目作为最终分类器的特征集大小;其中mRMR-IFS曲线以MCC值和AUC值作为y坐标轴,以特征数目Fi的下标i作为x坐标轴,i=1,2,...,n。

优选的,上述系统所采用的迭代决策树算法如下:

输入:

数据集:

损失函数:L(y,Θ(x));

迭代次数=M;

输出:

1)、初始化

2)、从m=1到M,重复步骤3)到6);

3)、计算损失函数的负梯度作为残差值;

4)、通过使用输入x的Logistic函数找到一个合适的分类模型,并得到βh(x;α)的估计αm

5)、通过最小化L(yim-1(xi)+βh(xim))得到估计βm

6)、更新Θm(x)=Θm-1(x)+βmh(x;αm);

7)、返回

同理,本实施例公开的蛋白质分子中RNA结合位点的预测系统,其能综合考虑了结构特征,序列特征,以及邻居特征,能有效的考虑各种可能对预测结果产生影响的因素,并进一步通过mRMR-IFS筛选特征,从而保留主要的影响特征,减少噪声特征对预测准确性的影响,本发明可以显著提高蛋白质RNA结合位点预测的准确性,解决了生物实验成本昂贵和实验周期长的问题。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

完整全部详细技术资料下载
当前第1页 1  2  3 
相关技术
  • 一种大规模标注lncRNA功...
  • 一种基于CRISPR/Cas...
  • 一种筛选婴幼儿龋病的口腔致病...
  • 项目报告自动生成方法与流程
  • 多物种特征选择及鉴定未知基因...
  • 一种与菊花耐涝性显著相关的分...
  • 一种机器学习妊娠期糖尿病发病...
  • 一种数据处理方法及装置与流程
  • 一种智能医疗护理系统的制作方...
  • 一种医疗信息共享系统的制作方...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
蛋白质分子量预测相关技术
  • 一种分子生物传感器及其对dna或蛋白质进行单分子检测的方法
  • 利用小麦麦谷蛋白作蛋白质分子量标准的技术的制作方法
  • 利用内含肽反式剪接制作蛋白质分子量标准的方法
  • 排斥性引导分子(rgm)蛋白质家族的蛋白的骨形态发生蛋白(bmp)-结合结构域及其功能 ...的制作方法
  • 排斥性引导分子(rgm)蛋白质家族的蛋白质的结合结构域及其功能性片段和它们的用途的制作方法
  • 一种肝癌转移相关蛋白质分子ck19的筛选及其应用的制作方法
  • 金表面一步固定蛋白质分子的方法
  • 用于抑制和检测蛋白质的分子和方法
  • 一类新颖的以蛋白质为基础的治疗用分子的制作方法
  • 一类新颖的以蛋白质为基础的治疗用分子的制作方法
蛋白质结合位点预测相关技术
  • 制备内毒素结合蛋白质的改进方法
  • Fc结合性蛋白质及其制造方法
  • 由聚合物-蛋白质结合物形成的支架,产生该支架的方法及其用途的制作方法
蛋白质分子量相关技术
  • 融合蛋白分子和它的使用方法
  • 一种大豆小分子蛋白质及其制备方法
  • 一种巨噬细胞移动抑制因子三环小分子抑制剂及其应用
  • 一种磁微粒化学发光试剂的制备方法
  • 一种胱抑素c纳米胶乳免疫比浊法检测试剂盒的制作方法
  • 一种天然水蛭素循环提取装置及提取方法
  • 一种食用蛋白质、油脂与多糖复合物及其自组装方法
  • 一种丝素蛋白活性涂层超高分子量聚乙烯复合人工韧带材料的制备方法
  • MHC II类分子提呈的存活蛋白(Survivin)的部分肽及其利用方法
  • 一种食用蛋白质与油脂复合物及其自组装方法
蛋白质分子结构相关技术
  • 一种判断可能引起蛋白构象病的蛋白质分子结构转化关键位点的方法
  • 识别蛋白质中大分子结合区域和易聚集区域的方法及其用途的制作方法
  • 一种蛋白质侧链预测的层次化建模方法
  • 一种蛋白质单分子水平安培免疫分析方法
  • 一种鉴别浓度对蛋白质分子二级结构影响的检测方法
  • 一种利用定向肽库检测蛋白质与其他分子相互作用的方法
  • 一种开发蛋白质分子电子器件的电化学钳及其制作方法
  • 一种在有机玻璃上固定蛋白质分子的方法
  • 包括小分子热休克蛋白(sHSPs)用于防止蛋白质降解的组合物以及利用sHSPs的二维凝胶 ...的制作方法
  • 一种分子生物传感器及其对dna或蛋白质进行单分子检测的方法
蛋白质分子相关技术
  • 一种脱酰胺改性小麦面筋蛋白的方法与流程
  • 一种基于菌群优化算法的蛋白质结构从头预测方法与流程
  • 一种灭酶失活机组的制造方法与工艺
  • 分子分析系统及其应用的制造方法与工艺
  • 用于提高聚酯的分子量的方法与制造工艺
  • 具有某些杀虫效用的分子、以及与其相关的中间体、组合物、和方法与制造工艺
  • 一种基于种群拥挤度识别的差分进化蛋白质结构预测方法与制造工艺
  • 一种荧光素酶报告基因系统检测转录因子表达活性的方法与制造工艺
  • 一种在总状毛霉休眠孢子中表达蛋白质的方法与制造工艺
  • 具有针对CD79和CD22的特异性的分子的制造方法与工艺
蛋白质分子量计算相关技术
  • 一种蛋白质单分子水平安培免疫分析方法
  • 新风胶囊水溶性蛋白分子量检测方法
  • 一种利用定向肽库检测蛋白质与其他分子相互作用的方法
  • 在单分子水平上在细胞环境中分析蛋白-蛋白相互作用的方法和装置制造方法
  • 一种新型蛋白质分子量标准及其制备方法
  • 一种分离富集和鉴定大分子量蛋白质的方法
  • 一种开发蛋白质分子电子器件的电化学钳及其制作方法
  • 预染多色蛋白质分子量标准试剂盒的制作方法
  • 一种在有机玻璃上固定蛋白质分子的方法
  • 一种检测低丰度低分子量蛋白谱的试剂盒的制作方法
大分子蛋白质相关技术
  • 一种豆类提取氨基酸的方法与制造工艺
  • 一种多肽口服液及其制备方法
  • 一种利用菠萝茎提取菠萝蛋白酶的方法
  • 以赤霉素菌渣与餐厨垃圾混合厌氧发酵产沼气的方法
  • 一种乳酸菌发酵饲料及其制备方法
  • 酪蛋白水解肽的制备方法
  • 一种无乳糖低致敏易消化奶粉的制备方法
  • 一种基于金纳米颗粒的细胞膜荧光探针及其制备方法和应用
  • Atp作为生物标志物用于评价免疫能力的用途及评价方法
  • 一种化妆品生产用酶解罐的制作方法

深圳SEO优化公司鹤壁外贸网站制作推荐武汉关键词按天收费价格来宾百姓网标王推广推荐阿里推广网站价格亳州网站搭建哪家好厦门网站推广方案报价德阳关键词排名价格海南百搜标王哪家好周口网站优化推广推荐长葛百度竞价包年推广公司伊春SEO按天收费江门高端网站设计多少钱贵阳网络推广公司吉林设计网站报价黄山企业网站建设哪家好固原建网站价格郑州品牌网站设计推荐昌吉seo排名黄南网站推广报价松原网站推广方案报价嘉兴百度网站优化推荐阜新外贸网站制作多少钱鹤壁网站关键词优化公司凉山模板制作保山品牌网站设计珠海百度标王推荐荆州百姓网标王推广哪家好南联设计网站公司淄博企业网站设计公司青岛网站优化软件哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化