本发明属于互联网技术领域。
背景技术:
深度学习是机器学习的重要子领域,在众多人工智能领域取得突破进展,例如语音识别、计算机视觉、自动驾驶和自然语言处理等。网络流量通常是高维和异构的,而深度学习能够从大量高维异构的原始网络数据流中自动学习不同层次的特征,这些特征不需要人类专家的领域知识,节省了大量的人力资源和时间成本,将这些学习到的重要特征作为机器学习算法的输入来完成分类任务,可解决传统网络入侵检测技术(intrusiondetectionsystem,ids)存在的大量漏报和误报问题,实现网络流量的准确识别。
在深度学习中,卷积神经网络(convolutionalneuralnetworks,cnn)在计算机视觉领域获得了良好的性能和广泛的应用,手写数字的识别在mnist测试集上取得超低误报率。同时,长短期记忆网络(lstm,longshort-termmemory)通过长期状态保存和前向计算,使用基于反向传播算法训练时间序列来预测模型,克服了原始的循环神经网络(recurrentneuralnetwork,rnn)对时间序列建模训练后梯度消失或梯度爆炸的问题。因此,本专利提出一种基于深度学习的网络流量异常检测方法,即将长短期记忆网络和卷积神经网络结合生成流量检测模型,通过训练得到网络流量的时空特征,该方法有较大潜力提高基于深度学习的网络流量检测技术的总体性能,非常适用于处理当前网络环境的流量数据。
技术实现要素:
本发明针对现有的入侵检测系统的不足,提出一种基于深度学习的网络流量异常检测方法,利用深度学习中的长短期记忆网络和卷积神经网络学习网络流量中的时间特征和空间特征。
首先,对网络流量进行预处理,数据预处理是为了加快神经网络学习速度,减少网络流量中的噪声干扰,其中包括对数据进行数值化编码和特征归一化处理。数值化编码:将网络流量中所有非数值特征转换为数值并按规律进行编码,方便输入到神经网络进行学习。特征归一化:即把网络流量的所有不同维度的特征通过离差标准化(minmax)映射到[0,1]区间,这样可以提升模型的收敛速度和精度。
对于预处理后的n维特征流量数据,通过独热编码(one-hotencoding)后转换像素为m×m的流量图像,其中
卷积神经网络模型:用来对网络流量的空间特征进行学习,并采用2d-cnn的网络模型,用来处理经过独热编码得到后的网络流量图像。其中网络结构采用堆叠三层cnn神经网络,并在每层cnn神经后面添加dropout层防止模型出现过拟合现象,随后添加一层flatten将二维图像的流量数据降维度输出,最后添加一层softmax输出网络流量的类别。
第二,长短期记忆网络模型:用来对网络流量时间特征进行学习,采用堆叠三层的lstm神经网络并在每层lstm神经网络后面添加dropout层防止模型出现过拟合现象。将通过卷积神经网络模型得到流量向量,以当前时间为基准取时间步长为t的历史流量数据,划分为2个时间戳{seq(t-1),seq(t)}并输入lstm单元编码器进行训练,训练好后的lstm单元通过解码器输出下一个时间序列seq(t+1),即是基于时间序列的预测模型根据seq(t-1)和,seq(t)预测下一时段网络流量序列,seq(t+1),以此得到网络流量异常概率,实现对网络流量攻击的预判。
最后,将两种训练模型结合,将cnn神经网络的softmax分类输出和lstm神经网络的预测概率再通过一层softmax层进行分类,实现准确率更高的流量分类和流量趋势预测,能实时自动化监控入侵检测系统的网络流量异常检测功能。
附图说明
图1是基于深度学习的网络流量异常检测流程图;
图2是基于cnn-lstm深度神经网络结构图。
具体的实施方法
本发明的实施模型流程图如图1所示,主要分为离线训练和在线检测,基于深度学习的模型框架如图2所示,下面是本发明实时的具体步骤:
(1)离线训练
步骤1:采用公开ids数据集或采用模拟攻击作为训练数据集。
步骤2:将训练样本数据中的一些非数值形的特征进行数值化编码。
步骤3:数值编码后的数据进行标准归一化处理,使用minmax将数值映射到[0,1]之间,消除网络流量的噪声。
步骤4:将数值编码后的数据进行独热编码,根据数据的特征数n,转换为长宽都为
步骤5:将训练集的流量图像输入到cnn模型中,进行网络流量空间学习和识别,并得到流量向量序列。
步骤6:将经过cnn的流量向量序列通过softmax分类,输出网络流量在空间特征下的分类标签。
步骤7:将流量向量序列输入到lstm模型,进行时间特征学习和预测。
步骤8:将lstm模型通过softmax分类输出,并结合步骤6中cnn分类输出的结果,得到下一时间段的流量趋势。
步骤9:最后输入测试集数据到cnn-lstm进行测试,并结合cnn和lstm网络流量的分类结果,进行dropout和轮训次数等参数的调整。
(2)在线检测
步骤1:接入需要检测的网络环境,进行实时的网络流量数据采集。
步骤2:将采集到的网络流量样本数据中的一些非数值形的特征进行数值化编码。
步骤3:数值编码后的数据进行标准归一化处理,使用minmax将数值映射到[0,1]之间,消除网络流量的噪声。
步骤4:将数值编码后的数据进行独热编码,根据数据的特征数n,转换为长宽都为
步骤5:将流量图像输入到训练好的cnn模型中,进行网络流量空间特征识别,并得到流量向量序列。
步骤6:将经过cnn的流量向量序列通过softmax分类,输出网络流量在空间特征下的分类标签。
步骤7:将流量向量序列输入到训练好的lstm模型,进行时间特学习和预测。
步骤8:将lstm模型通过softmax分类输出,并结合步骤6中cnn分类输出的结果,得到下一时间段的流量趋势。
步骤9:最后结合cnn和lstm网络流量的分类结果,可以得到更准确的流量的分类和流量趋势,从而实现网络流量的异常检测。
深圳SEO优化公司龙华外贸网站建设大鹏网站推广方案大芬百搜标王南联SEO按天收费爱联seo网站推广光明企业网站制作沙井模板制作横岗百度爱采购南澳百度标王丹竹头阿里店铺运营南联建站石岩网络推广光明seo大运网站改版横岗SEO按天计费宝安网站建设设计松岗网页制作福永推广网站坂田百姓网标王坪山关键词排名包年推广深圳关键词按天计费宝安网站定制东莞百度标王民治百度seo松岗网站推广方案布吉SEO按效果付费松岗网站制作设计西乡网站设计模板福田设计公司网站塘坑网站建设设计歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运