基于线性递减权重粒子群算法优化Xgboost模型方法与流程

文档序号:19901903发布日期:2020-02-11 13:59阅读:1344来源:国知局
导航: X技术> 最新专利> 电子通信装置的制造及其应用技术
基于线性递减权重粒子群算法优化Xgboost模型方法与流程
本发明涉及网络入侵检测领域,具体是一种基于线性递减权重粒子群算法优化xgboost模型方法。
背景技术
:近年来随着计算机技术、大数据技术的发展,网络空间的规模呈现大幅度地增长,一系列网络安全问题也随之产生。网络入侵检测领域一直是学术界和工业界关注的重点,网络入侵检测的方法是将入侵行为转换为分类和识别的问题,通过有效的算法来准确的识别其攻击类型使得入侵检测系统能够更好地应对攻击。随着机器学习技术的日渐成熟,相关领域的学者已成功将其应用于网络入侵检测中,但是识别的准确率还有待提升。xgboost模型是集成学习算法中的一种,将xgboost模型应用于网络入侵检测数据集nsl-kdd中,识别的效果很大程度上取决于参数的选择。如果使用默认的参数,虽然取得的效果还不错,但是还有很大提升的空间,xgboost模型由于其参数数量较多,人工进行调参的工作量巨大。目前机器学习模型的参数往往是根据人们的经验来进行调整,参数可调整的局限性较大,当参数数量较多时,人工调参基本是不太可行的方案。现有使用较多的一种优化参数的方法是网格搜索,该方法通过对所有的参数组合进行穷举来寻找效果最佳的参数组合,但是非常耗时,并且最后搜索的参数是预先指定的。本申请的发明人在实现本发明的过程中经过研究发现:线性递减权重粒子群优化(lineardecrementweightparticleswarmoptimization,ldwpso)算法采用群体智能策略,在基本粒子群算法(particleswarmoptimization,pso)的基础上引入惯性权重因子,在搜索空间内具有的良好的搜索能力和更快的收敛速度,因此本发明提出了使用线性递减权重粒子群优化算法去自适应地优化xgboost模型的参数,并将其应用于网络入侵检测领域中,使模型能够取得更好的识别和分类的效果。线性递减权重粒子群算法ldwpso:vid=ωvid+c1random(0,1)(pid-xid)+c2random(0,1)(pgd-xid)xid=xid+vid其中c1和c2分别为个体和社会学习因子,pid为第i个粒子个体极值的第d维,pgd为全局最优解的第d维,ω为非负的惯性因子,其中iter为最大迭代次数,iteri为当前迭代次数,ωmax为ω的最大值,ωmin为ω的最小值。xgboost算法:xgboost模型共包含三大类参数,其主要的参数及其解释如下:eta:学习率,通过减少每一步的权重,可以提高模型的稳定性。通过设置eta可以过拟合;min_child_weight:最小叶子节点权重和,如果在一次分裂中,叶子节点上所有样本的权重和小于min_child_weight则停止分裂,能够有效的防止过拟合,防止学到特殊样本;max_depth:最大树深度,防止树模型过于复杂;max_leaf_nodes:树上叶子节点数;gamma:惩罚项和叶子节点结合的项;subsample:每棵树随机采样的样本的比例,减小这个参数的值,算法会更加保守,避免过拟合。如果值设置得过小,也可能会导致欠拟合;colsample_bytree:用来控制每棵随机采样的列数的占比;lambda:权重的l2正则化项;alpha:权重的l1正则化项;objective:定义损失函数;其算法原理公式如下所示:其中obj(t)表示xgboost模型第t轮的目标函数,其中l表示第t轮的损失项,constant表示常数项,ω表示模型的正则项,γ和λ都是xgboost自定义参数。技术实现要素:本发明的目的是为了解决在网络入侵检测中使用机器学习模型人工调参工作量大的问题,提出了一种基于线性递减权重粒子群算法优化xgboost模型方法,本发明分析了xgboost模型参数的含义,选取了对模型影响较大的4个参数进行优化,并将优化后的模型应用于nsl-kdd数据集中。一种基于线性递减权重粒子群算法优化xgboost模型方法,包括:步骤一:选取对xgboost模型影响较大的4个参数,分别为学习率eta、最大树深度max_depth、最小叶子节点权重和min_child_weight以及gamma值,根据要优化的参数数量确定粒子的维度为4,并初始化每个粒子的位置和速度;步骤二:根据下面等式来更新每个粒子的速度vid和位置xid:vid=ωvid+c1random(0,1)(pid-xid)+c2random(0,1)(pgd-xid)(1)xid=xid+vid(2)其中c1和c2分别为个体和社会学习因子,pid为第i个粒子个体极值的第d维,pgd为全局最优解的第d维;并根据下面等式对惯性权重因子ω进行变换:其中ω为非负的惯性权重因子,iter为最大迭代次数,iteri为当前迭代次数,ωmax为ω的最大值,ωmin为ω的最小值;步骤三:将粒子的新位置作为参数并赋值给xgboost模型并计算验证集上的适应度值,然后将新的适应度值与之前进行比较来确定哪些粒子的个体最优值需要进行更新,并更新全局最优值;步骤四:线性递减权重粒子群算法进行迭代并且在满足最大迭代次数或收敛时终止,得到算法的最优适应度值和对应的最优位置,并且最优位置的4个分量分别对应eta、max_depth、min_child_weight和gamma四个参数,然后使用四个最优参数值来构造ldwpso-xgboost模型,并将其通过网络入侵数据集nsl-kdd拟合后,应用到测试集上,计算在测试集上的各项指标。进一步的,所述步骤二具体为:在4维搜索空间中,某时刻t,第i个粒子的位置为xi(t)=[xi1,xi2,xi3,xi4],将xi1到xi4分别赋值给eta、max_depth、min_child_weight和gamma四个参数,并根据pr曲线面积指标计算第i个粒子此参数下模型的适应度值fi(t);在t+1时刻,对第i个粒子的4个维度均进行速度分量的生成,速度分量中采用随机数的方式保证随机性,粒子添加速度分量后的位置可表示为xi(t+1)=[xi1+vi1,xi2+vi2,xi3+vi3,xi4+vi4],并计算第i个粒子新的适应度值fi(t+1),如果fi(t+1)>fi(t),则更新第i个粒子的个体最优值;对所有的粒子均进行相同的操作,并从所有粒子中找出使适应度值最大所对应最优的参数,一旦某个粒子所计算的适应度值最大,则其他的粒子朝着该粒子的位置移动。进一步的,所述步骤三具体为:第i个粒子在t时刻的适应度值为fi(t),并且其个体最优适应度值为pi(t),粒子群的全局最优适应度值为gt,若fi(t)≤pi(t),则t时刻不对该粒子的个体最优值和全局最优进行更新;在t+1时刻,更新第i个粒子的位置后,计算出来新的适应度值为fi(t+1),该粒子的个体最优适应度值为pi(t)并且全局最优为gt,若fi(t+1)≥pi则更新该粒子的个体最优值,在t+1时刻这一轮对所有粒子均进行相同的操作,在t+1时刻结束后,全局最优值gt+1=max(fk(t+1)),k=1,2,...,m,其中m为粒子群的数目。进一步的,所述步骤四中的网络入侵数据集nsl-kdd中共包含5中类型,分别为normal(正常)、dos(拒绝服务攻击)、r2l(远程主机未授权访问)、u2r(未授权本地超级用户特权访问)和probe(端口监视或扫描),ldwpso-xgboost模型首先通过训练集进行训练,使得该模型能够较好的挖掘出数据中潜在的规律,然后使用训练好的模型对测试集进行类别预测,根据预测的准确率来评价模型的好坏。本发明通过群体智能的搜索策略,在一定程度上可以找出较优参数,从而提高入侵检测的准确率,通过本发明线性递减权重粒子群优化参数后的xgboost模型应用于nsl-kdd测试集数据,能够有效的优化xgboost模型参数,提升模型的性能。附图说明图1是本发明基于线性递减权重粒子群算法优化xgboost模型方法的流程示意图;图2是本发明ldwpso-xgboost模型与现有xgboost模型的map曲线对照图;图3是本发明ldwpso-xgboost模型和现有网格搜索(gridsearch)优化map曲线对照图。具体实施方式下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述。请参阅图1,本发明实施例提出的基于线性递减权重粒子群算法优化xgboost模型参数的方法,其步骤为:步骤一:本发明选取了对xgboost模型影响较大的4个参数,分别为学习率(eta)、最大树深度(max_depth)、最小叶子节点权重和(min_child_weight)和gamma值(惩罚项和叶子节点结合的项),根据要优化的参数数量确定粒子的维度为4,并初始化每个粒子的位置和速度。由于不同参数其有效的范围不同,因此需要分别对每个参数进行初始化操作。在n维搜索空间中,在时间t,第i个粒子的位置可以表示为:xi(t)=[xi,1,xi,2,…,xi,n],i=1,2,…,m,其中m是粒子数。粒子的个体最佳位置是:pi(t)=[pi,1,pi,2,…,pi,n],粒子群的全局最优位置是:g(t)=[g1,g2,…,gn],全局最佳位置从个体的最佳位置中找到。对于每个粒子,其速度在每个维度上均进行(0,1)初始化,然后将粒子的每个维度的初始位置值赋值给xgboost模型的相应参数,并且将其在nsl-kdd验证集上p-r曲线与x轴围成的面积作为初始适应值,同时,初始化全局最优值和个体最优值。步骤二:根据下面等式来更新每个粒子的速度vid和位置xid:vid=ωvid+c1random(0,1)(pid-xid)+c2random(0,1)(pgd-xid)(1)xid=xid+vid(2)其中c1和c2分别为个体和社会学习因子,pid为第i个粒子个体极值的第d维,pgd为全局最优解的第d维;并根据下面等式对惯性权重因子ω进行变换:其中ω为非负的惯性权重因子,iter为最大迭代次数,iteri为当前迭代次数,ωmax为ω的最大值,ωmin为ω的最小值。在4维搜索空间中,某时刻t,第i个粒子的位置为xi(t)=[xi1,xi2,xi3,xi4],将xi1到xi4分别赋值给eta、max_depth、min_child_weight和gamma四个参数,并根据pr曲线面积指标计算第i个粒子此参数下模型的适应度值fi(t);在t+1时刻,对第i个粒子的4个维度均进行速度分量的生成,速度分量中采用随机数的方式保证随机性,粒子添加速度分量后的位置可表示为xi(t+1)=[xi1+vi1,xi2+vi2,xi3+vi3,xi4+vi4],并计算第i个粒子新的适应度值fi(t+1),如果fi(t+1)>fi(t),则更新第i个粒子的个体最优值;对所有的粒子均进行相同的操作,并从所有粒子中找出使适应度值最大所对应最优的参数,一旦某个粒子所计算的适应度值最大,则其他的粒子朝着该粒子的位置移动;步骤三:将粒子的新位置作为参数并赋值给xgboost模型并计算验证集上的适应度值,然后将新的适应度值与之前进行比较来确定哪些粒子的个体最优值需要进行更新,并更新全局最优值。第i个粒子在t时刻的适应度值为fi(t),并且其个体最优适应度值为pi(t),粒子群的全局最优适应度值为gt,若fi(t)≤pi(t),则t时刻不对该粒子的个体最优值和全局最优进行更新;在t+1时刻,更新第i个粒子的位置后,计算出来新的适应度值为fi(t+1),该粒子的个体最优适应度值为pi(t)并且全局最优为gt,若fi(t+1)≥pi则更新该粒子的个体最优值。在t+1时刻这一轮对所有粒子均进行相同的操作,在t+1时刻结束后,全局最优值gt+1=max(fk(t+1)),k=1,2,...,m,其中m为粒子群的数目。步骤四:线性递减权重粒子群算法进行迭代并且在满足最大迭代次数或收敛时终止,得到算法的最优适应度值和对应的最优位置,并且最优位置的4个分量分别对应eta、max_depth、min_child_weight和gamma四个参数,然后使用四个最优参数值来构造ldwpso-xgboost模型,并将其通过nsl-kdd训练集拟合后,应用到测试集上,计算在测试集上的各项指标。网络入侵数据集nsl-kdd中共包含5中类型,分别为normal(正常)、dos(拒绝服务攻击)、r2l(远程主机未授权访问)、u2r(未授权本地超级用户特权访问)和probe(端口监视或扫描),ldwpso-xgboost模型首先需要通过训练集进行训练,使得该模型能够较好的挖掘出数据中潜在的规律,然后使用训练好的模型对测试集进行类别预测,根据预测的准确率来评价模型的好坏。ldwpso-xgboost模型能够较好的提升分类的效果。最终线性递减权重粒子群优化算法适应度值收敛于85.68,其最优的参数分别是eta为0.49,max_depth为4,min_child_weight为16,gamma值为0.74。目前国内相关领域学者已将多种机器学习算法应用于网络入侵检测中,如svm、随机森林等。将机器学习算法应用于入侵检测的一个主要问题在于有些攻击类型出现的次数相比于其他攻击类型基本可以忽略不计,对机器学习算法来说,不平衡数据集会降低检测准确率,尤其体现在少数类,并且大部分机器学习算法都需要人为的根据经验来设置参数,因此本发明的提出的线性递减权重粒子群优化xgboost的方法,通过群体智能的搜索策略,在一定程度上可以找出较优参数,从而提高入侵检测的准确率。实际效果验证:将本发明线性递减权重粒子群优化参数后的xgboost模型应用于nsl-kdd测试集数据,并与未优化的xgboost和网格搜索参数的方式进行对比。分析比较的评价指标采用map(meanaverageprecision)值,该值表示模型对各类别pr曲线与x轴围成面积即ap值(averageprecision)的综合度量,map值越大则表示模型在数据集上的效果越好。测得的5组map值如表1所示,由于机器学习的随机性较大,结果存在不稳定性,综合5组的map值结果可看出,ldwpso-xgboost模型的表现效果优于xgboost模型和网格搜索的方法。第5组对比结果如图2和图3所示,从图中可知,未优化参数的xgboost模型的map值为0.60,网格搜索优化后的xgboost模型map值为0.61,线性递减权重粒子群优化参数后的xgboost模型的map值为0.63。结果表明,使用本发明线性递减权重粒子群优化算法能够有效的优化xgboost模型参数,提升模型的性能。表1三个模型的map值对比第1组第2组第3组第4组第5组averageldwpso-xgboost0.620.620.620.620.630.622xgboost0.600.600.590.600.600.598gridsearch0.610.600.600.620.610.608当前第1页1 2 3 
完整全部详细技术资料下载
当前第1页 1  2  3 
相关技术
  • 一种基于新一代配电自动化主站...
  • 一种用于展厅展馆智能识别系统...
  • 一种视频数据推送方法及装置与...
  • 一种利用FPGA实现PPPo...
  • 一种基于浏览器的单点登录方法...
  • 一种基于空间编排的针对分布式...
  • 设备安全保护方法、装置、系统...
  • 跨协议实现无感知认证的方法与...
  • 基于用户权限的云资源获取方法...
  • 利用WIFI热点分享工具获取...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
粒子群相关技术
  • 基于粒子群优化算法的参数拟合方法及参数拟合系统与流程
  • 一种自适应惯性粒子分离器的制作方法与工艺
  • 一种基于多因子粒子群算法的不规则件排样方法与流程
  • 基于AFSA‑BP神经网络的湿度传感器温度补偿方法与流程
  • 基于离散化与启发式进化算法的空间布局优化方法与流程
  • 一种电力系统的最优潮流计算方法及装置与流程
  • 一种云制造环境下数控机床优选方法与流程
  • 基于粒子群优化BP神经网络的弹药贮存可靠性预测方法与流程
  • 基于维度区分的团队进步算法改进方案的制作方法与工艺
  • 焊核区域材料塑性参数反演识别的实现方法与流程
多目标粒子群相关技术
  • 基于无线网络测距的动态粒子群监控方法与流程
  • 一种自适应变异粒子群优化算法的制作方法与工艺
  • 一种基于多目标优化算法的光伏发电最大功率点追踪方法与流程
  • 基于粒子群方法来确定移动设备位置与流程
  • 一种基于粒子群算法的轮毂驱动电动汽车主动悬架双回路PID控制方法与流程
  • 基于粒子群优化算法的视频流特征选择与分类方法与流程
  • 一种基于FPGA的全流水粒子群优化算法实现方法与流程
  • 基于改进粒子群算法的数字微流控芯片故障检测方法及系统与流程
  • 非线性迟滞动力学模型参数识别的粒子群新算法的制作方法与工艺
  • 基于二进制多目标粒子群算法的供水管网关阀方法与流程
模拟退火粒子群算法相关技术
  • 一种基于模拟退火粒子群的空调能耗模型参数辨识方法
  • 一种减少基座姿态扰动的空间机械臂路径规划方法
  • 大型全调节水泵泵站变角优化运行叶片调节频度确定方法
  • 锰铋纳米粒子的合成和退火的制作方法
  • 烧结用模拟粒子原料及其制造方法
  • 烧结用模拟粒子原料及其制造方法
  • 烧结用模拟粒子原料及其制造方法
多目标粒子群算法相关技术
  • 一种基于即时通讯程序进行目标用户搜索的方法和装置的制造方法
  • 代表性目标子集的选择及使用
  • 多重搜索粒子概率假设密度滤波的多目标跟踪方法
  • 磁法数据多目标粒子群反演方法
  • 基于预测和粒子群算法的多目标电压无功滚动优化方法
  • 基于混合算法的配电网多目标故障恢复方法
  • 一种基于种群爆炸粒子群算法的目标分配优化方法
  • 在考虑目标体积的运动的情况下粒子照射的照射规划的制作方法
  • 一种基于改进多目标粒子群优化算法的待增组件选择方法
  • 基于分解的多目标粒子群优化的符号网络结构平衡的制作方法

深圳SEO优化公司塔城百度网站优化排名吉林SEO按天扣费价格德州网站改版湘西营销网站报价沙井网站优化按天计费多少钱烟台网站优化推广报价黔西南网站排名优化报价淄博网站推广系统南澳营销型网站建设报价湘潭外贸网站建设楚雄百度竞价泸州百度seo推荐和田网站优化排名推荐呼和浩特百度爱采购白山SEO按天计费潮州企业网站制作滨州网站搜索优化价格山南关键词排名包年推广多少钱保定网站改版公司汕尾SEO按天收费沈阳网站建设设计多少钱武汉营销网站思茅百度爱采购公司大浪网站优化排名哪家好平顶山设计公司网站公司衢州网站推广系统价格黔西南网站推广工具推荐广东优秀网站设计推荐襄阳百姓网标王推广价格淮南外贸网站设计公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化