一种基于属性加权的朴素贝叶斯分类模型改进方法与流程

文档序号:18643668发布日期:2019-09-11 23:58阅读:575来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种基于属性加权的朴素贝叶斯分类模型改进方法与流程
本发明属于数据处理分类领域,特别是涉及一种基于属性加权的朴素贝叶斯分类模型改进方法。
背景技术
:朴素贝叶斯分类算法是最为经典的分类方法。但是由于算法本身的条件独立特性和所有属性对结果影响相同的问题,在实际使用时该算法准确度偏低。目前对朴素贝叶斯算法的改进方法主要有:基于算法本身进行改进,如贝叶斯网络分类算法、双重贝叶斯分类算法、懒惰式贝叶斯网络分类算法等,这些方法使得贝叶斯分类算法的准确率和应用范围有所提升;结合其他方法对朴素贝叶斯分类算法进行改进,这种方法的改进方式较多,比如结合mapreduce框架对朴素贝叶斯算法进行改进,可以在保证准确度的基础上大幅减少运行时间,适用于大规模数据集;结合支持向量机算法对朴素贝叶斯算法进行改进,这种方法在处理多维数据集时有极大优势。更加有效的是针对属性对结果影响的结合属性加权的朴素贝叶斯分类器,这种方法可以提高准确率;为了弱化属性条件独立性假设的束缚,提高nb的分类性能,通过属性选择或属性加权来提高nb的分类性能,数据集中的冗余属性不仅增加了分类模型学习过程中的计算量,同时还会降低分类的准确率,所以属性选择经常作为提高分类器性能的方法.和准朴素贝叶斯方法相比,属性选择不会改变nb模型的结构,同时可以有效提高nb的分类性能.但是实际中属性对类属性的归属的影响不同,而属性选择不能区分不同属性在分类过程中的重要程度。为了解决上述问题,本发明选择的属性加权不仅可以排除冗余属性,还可以区分不同属性在分类过程的重要程度nb模型的属性条件独立性假设本质上是假定了各个属性对类属性的贡献相同,通过属性加权可以区分不同属性对类属性归属的不同影响,相较于其他优化方案,此方案减少了对于硬件环境的需求,同时也有效的提高了分类的效率和准确率。技术实现要素:本发明的目的在于提供一种基于属性加权的朴素贝叶斯分类模型改进方法,通过属性加权的方式有效的弱化了朴素贝叶斯分类模型的条件独立性假设,并且通过斯皮尔曼系数剔除了冗余属性,改进模型明显的提高了朴素贝叶斯模型的准确性和效率,解决了现有的朴素贝叶斯分类属性间并不总是相互的独立、分类正确率和效率低的问题。为解决上述技术问题,本发明是通过以下技术方案实现的:本发明为一种基于属性加权的朴素贝叶斯分类模型改进方法,包括如下步骤:步骤s1、数据预处理:将连续型的数据根据高斯分割进行数据离散化,对于非数字类的信息全部转化为数字后,再进行离散化处理;步骤s2、计算分组斯皮尔曼系数:对于相关性大的组合进行属性融合,剔除冗余属性更新数据集;步骤s3、求出各类的先验概率和类条件概率:采用拉普拉斯方法计算出各类的先验概率和类条件概率;步骤s4、计算更新后的训练集每个属性的加权系数;其中,计算方法包括:步骤s41、计算平均置信度w1;步骤s42、计算关联度得分relieff系数w2;步骤s43、根据w1和w2计算新的加权系数w;步骤s5、根据加权后的改进模型进行分类,并统计分类结果;其中,步骤s41中,具体的平均置信度属性加权过程如下:a、属性a有五个类别分别为a1~a5,c为类别集合存在三个类别y1~y3;b、分别对三个类别找到三个类调节概率最大的值,即找到最大的条件概率分别为p(ai|y1)、p(aj|y2)、p(ak|y3);c、令t为代表属性的平均置信度,即与分类结果的关联程度,t值越大则表示关联程度越高;d、通过公式得到一个加权系数;式中,ac(i)代表属性变量ai的平均置信度,m代表样本中的属性数;其中,步骤s42中,具体的relieff算法加权过程如下:每次从训练样本集中随机抽取一个样本r,然后从和r同类的样本集中找出r的k个近邻样本,从每个r的不同类的样本集中据找出k个邻近样本,然后更新每个特征的权重,计算公式如下:式中,diff(a,r1,r2)表示样本在r1和r2属性a上的差,mj(c)表示中第j个最邻近样本。优选地,所述步骤s1中,数据离散化处理采集高斯分布进行分割,具体流程如下:a、随机选择数据集中的一列属性a;b、按照训练集将属性a分为a1、a2、a3;c、假设a1、a2、a3数据都服从高斯分布,计算其均值μ1、μ2、μ3和方差根据均值和方差得到其概率密度函数:d、计算相邻的两组数据,a1、a2、a3的概率密度函数的交点对应的具体数值即为分割点;e、利用焦点对特征属性列中的元素值进行分类,相同的类别取同一值,即连续数据离散化。优选地,所述步骤s3中,计算各类的先验概率和类条件概率采用拉普拉斯方法,具体计算公式如下:其中,yya是训练集中类别yi且属性x取值为xj的例子总数,yy是类别为yi的总数,n是属性x所有的可能取值个数。本发明具有以下有益效果:本发明通过属性加权的方式有效的弱化了朴素贝叶斯分类模型的条件独立性假设,并且通过斯皮尔曼系数剔除了冗余属性,改进模型明显的提高了朴素贝叶斯模型的准确性和效率。当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明的一种基于属性加权的朴素贝叶斯分类模型改进方法流程图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。请参阅图1所示,本发明为一种基于属性加权的朴素贝叶斯分类模型改进方法,包括如下步骤:步骤s1、数据预处理:将连续型的数据根据高斯分割进行数据离散化,对于非数字类的信息全部转化为数字后,再进行离散化处理;步骤s2、计算分组斯皮尔曼系数:对于相关性大的组合进行属性融合,剔除冗余属性更新数据集;步骤s3、求出各类的先验概率和类条件概率:采用拉普拉斯方法计算出各类的先验概率和类条件概率;步骤s4、计算更新后的训练集每个属性的加权系数;其中,计算方法包括:步骤s41、计算平均置信度w1;步骤s42、计算关联度得分relieff系数w2;步骤s43、根据w1和w2计算新的加权系数w;步骤s5、根据加权后的改进模型进行分类,并统计分类结果;首先,原始的贝叶斯公式为:设x={a1,a2,a3,...,am}为一个待分类项,而每个a为x的一个特征属性,有类别集合c={y1,y2,y3,...,yn};计算p(y1|x),p(y2|x),...,p(yn|x),根据公式(1)假设各特征属性是条件独立的,则得到:如果:p(yk|x)p(yi)=max{p(y1|x),p(y2|x),...,p(yn|x)},则x∈yk;其中,步骤s41中,具体的平均置信度属性加权过程如下:a、属性a有五个类别分别为a1~a5,c为类别集合存在三个类别y1~y3;b、分别对三个类别找到三个类调节概率最大的值,即找到最大的条件概率分别为p(ai|y1)、p(aj|y2)、p(ak|y3),其中的i、j、k的值必须互不相同,如果出现重复,表明a的属性类别与分类效果的联系程度偏低,表明此系数不是一个好的属性,将其删除;c、令t为代表属性的平均置信度,即与分类结果的关联程度,t值越大则表示关联程度越高;d、通过公式得到一个加权系数;式中,ac(i)代表属性变量ai的平均置信度,m代表样本中的属性数;其中,步骤s42中,具体的relieff算法加权过程如下:每次从训练样本集中随机抽取一个样本r,然后从和r同类的样本集中找出r的k个近邻样本(nearhits),从每个r的不同类的样本集中据找出k个邻近样本(nearmisses),然后更新每个特征的权重,计算公式如下:(7)式中,diff(a,r1,r2)表示样本在r1和r2属性a上的差,mj(c)表示中第j个最邻近样本;该方法的主要思想式将属性的关联度得分作为属性的权值,计算方式如下所示:(8)式中,re(i)代表的是代表属性变量ai的关联度得分;为了同时考虑到平均置信度加权系数和关联度得分加权系数,本发明定义了一种新的属性加权计算方式为:(9)式中,w1代表的式平均置信度加权系数,w2代表的式关联度得分加权系数;对于(2)式中的计算需要样本中的m个属性相互独立,但是实际的应用过程中这个是很难满足条件的,即事物之间必定存在某种普遍的联系,不可能达到真正的相互独立,为了弱化他们之间的联系,可以先将属性间关系较强的属性融合为一列属性,再通过对(2)式中的因子进行加权得到新的公式:其中,步骤s1中,数据离散化处理采集高斯分布进行分割,基于高斯分布进行离散化的方法是建立在连续变量服从某种概率分布的假设的基础上的,因为高斯分布往往被用于表示连续属性的类条件概率分布,所以此处直接采用高斯分布进行分割,离散化的核心在于求取分割点,本发明的分割点是通过对同一属性下相邻的2个高斯分布进行交点求取得到的。以属性a为例具体流程如下:a、随机选择数据集中的一列属性a;b、按照训练集将属性a分为a1、a2、a3;c、假设a1、a2、a3数据都服从高斯分布,计算其均值μ1、μ2、μ3和方差根据均值和方差得到其概率密度函数:d、计算相邻的两组数据,a1、a2、a3的概率密度函数的交点对应的具体数值即为分割点;e、利用焦点对特征属性列中的元素值进行分类,相同的类别取同一值,即连续数据离散化。其中,步骤s2中,计算任意属性组合的斯皮尔曼系数,对于相关性大的组合进行属性融合,更新数据集;在统计学中,斯皮尔曼系数用来衡量两变量之间的相关性强度,可以通过单调函数的形式来表示变量间的相关性;其计算方式为:其中,d为两列变量成对分数的等级差数,n为等级个数或成对的数据个数;计算的过程是:先对两变量的数据进行逆序排序,记录排序后的位置,该位置的值为秩次,然后计算两者之间的差值即为d,最后带入(3)式中得到相关性系数。设d=rx-ry,则:通过(3)式计算任意两列属性的斯皮尔曼相关性系数ρxy,其取值在-1到1之间。当ρxy=0时,称x,y不相关;当|ρxy|=1时,称x,y完全相关,此时,x,y之间具有线性函数关系;当|ρxy|<1时,x的变动引起y的部分变动,|ρxy|值越大,相关性越高。通过计算属性的相关性系数,设定某个阈值,若大于阈值,则合并两列属性,达到降维的目的;若小于或者等于阈值,则不合并属性;若出现多组数据都大于阈值,则选取最大的一组。得到属性组后,将两列属性融合成为新的属性,并更新原有的数据集,得到新的训练集其中,步骤s3中,为了避免零概率和过度拟合问题的出现,需要对先验概率公式进行改进,计算各类的先验概率和类条件概率采用拉普拉斯方法,公式(2)中的p(aj|yi)具体计算公式如下:其中,yya是训练集中类别yi且属性x取值为xj的例子总数,yy是类别为yi的总数,n是属性x所有的可能取值个数,最后根据公式(1)算出先验概率和类条件概率。本实施例的一个具体应用为:为验证该发明的朴素贝叶斯分类模型改进方法,通过大量实验进行实际测试证实该方法真实有效;本次测试采用数据是ucimachinelearningrepository中balancescale数据集中的部分数据,训练集数据一共包括了20条,测试集数据与训练集数据相同。具体数据如表1:表1为训练数据集s1、本数据集的数据类型为离散型,所以不需要进行数据离散化;s2、根据斯皮尔曼系数的计算公式(即公式3)计算出每组的相关系数,可得到表3,取最大的值为待处理的数据,具体的数据见下表2。表2为计算出的每组相关系数s3、得到相关性最大的组后,从表中可以得到最大的组合是第3列和第4列,且相关性系数为0.829,对两列数据进行融合,达到剔除冗余属性的目的,得到新的数据集。s4、数据融合完成后得到新的训练集数据,计算平均置信度得分和relieff系数得到加权系数,具体的加权系数如表3所示:表3为加权系数表s5、通过朴素贝叶斯公式(即公式1)进行模型训练,得到基于属性加权朴素贝叶斯分类改进模型。s6、用测试集数据对模型进行检验与验证,具体结果见表4。元数据类别朴素贝叶斯模类别改进模型类别rrrlbbblblllllllllrrrlllllllllrrrbbbrrrrlrbbbrrrllllllrrrbbb表4分类结果对比由表格可以看出朴素贝叶斯分类的正确率为0.85,而改进后的基于属性加权的朴素贝叶斯算法的正确率为0.95,改进后的模型对于分类的正确率有较大的提升。值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属
技术领域
技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。当前第1页12
完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 电网事故的预案生成方法与流程
  • 基于分层多回波的点云分割方法...
  • 医学图像的预测方法、模型、装...
  • 一种基于加性模糊的红外技术缺...
  • 模型构建、网点现钞需求量预测...
  • 面向混合采样工业大数据的基于...
  • 一种基于长短时记忆网络的搜索...
  • 训练分类器的方法、装置、电子...
  • 一种基于神经网络与背景建模的...
  • 贝叶斯网络学习方法、智能设备...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
朴素贝叶斯模型相关技术
  • Surfacelet域BKF模型贝叶斯视频去噪方法
  • 一种基于贝叶斯网络失败风险模型的Web Service测试方法
  • 基于贝叶斯统计模型的网络异常检测方法
  • 一种基于朴素贝叶斯概率模型的视频雨滴检测与去除方法
  • 一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统的制作方法
  • 基于贝叶斯时空模型实现视频中的雨雪信息检测控制方法
  • 使用贝叶斯网络建立细胞信号传导系统模型的方法
  • 基于支持向量机正则化路径的贝叶斯模型平均模型组合方法
  • 一种基于贝叶斯文本分类模型的辅助挂号方法
  • 一种基于朴素贝叶斯的医疗影像疾病分类方法
贝叶斯模型相关技术
  • 一种飞行器结构非概率贝叶斯模型确认方法
  • 一种飞行器结构非概率贝叶斯模型确认方法
  • 基于多方向上下文信息和稀疏编码模型的图像分类方法
  • 面向社交媒体文本的无监督的事件抽取和分类方法
  • 一种基于稀疏关键点的参数化人体模型重建方法
  • 基于三维藻类生态模型的自控水源分层取水方法及系统的制作方法
  • 一种获取道路实时背景图的方法
  • 基于朴素贝叶斯源识别的非负约束因子的污染源解析方法
  • 基于分块稀疏贝叶斯优化的红外光谱波长选择方法
  • 用于处理视觉信息以检测事件的系统和方法

深圳SEO优化公司宝鸡seo网站推广达州模板网站建设公司廊坊网站设计模板铁岭百度竞价包年推广同乐网站设计模板推荐宣城百度网站优化排名推荐杭州百度竞价包年推广榆林网站优化按天计费陇南阿里店铺运营多少钱普洱百度竞价推荐北京企业网站改版报价渭南网站定制公司商丘seo排名公司天水网络营销哪家好同乐网站优化排名报价普洱百度标王价格张北网站制作设计价格保山阿里店铺运营价格赣州SEO按效果付费巢湖网站定制哪家好拉萨网络广告推广张家界营销型网站建设价格三亚建网站价格北京企业网站制作价格南联网站搜索优化松原网站设计模板价格衢州网页制作报价兰州网站优化排名多少钱萍乡企业网站设计多少钱咸宁品牌网站设计推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化