本发明涉及智能制造和数据管理技术领域,尤其涉及一种智能工厂中多模态制造数据预处理的方法。
背景技术:
在智能工厂工业大数据时代下,海量多模态制造数据广泛存在,如何从这些制造数据中挖掘出隐藏的巨大价值,是现阶段工业大数据研究关注的主要问题。然而多模态制造数据的模态低质性、处理实时性、模态不均衡性和属性高维性为数据挖掘的设计实施提出了严峻挑战。而在智能工厂的数据挖掘过程中,数据预处理大约需要花费整个过程60%的时间。因此,如何更高效地完成多模态制造数据预处理,保障数据正确性、一致性、完整性和可靠性已是智能工厂中数据挖掘成功的关键。
现阶段,数据预处理主要包括数据清洗、数据集成、数据变换、数据规约等,各步骤又可细分为更小、更精确的具体执行单元。一方面,在绝大多数领域的数据预处理过程需要结合该应用领域的知识,数据预处理模块大多以组件的方式嵌入在数据挖掘平台中,模块耦合程度高。另一方面,在针对多模态制造数据预处理过程中,大多需要相关领域专家的干预,当处理过程中出现异常情况时,通常需要人工进行辅助决策,效率低,已无法满足智能工厂中的实际需求。
技术实现要素:
为了解决上述问题,本发明提供了一种智能工厂中多模态制造数据预处理的方法。
具体方案如下:
一种智能工厂中多模态制造数据预处理的方法,包括以下步骤:
s1:接收工业数据采集系统所采集的制造数据,并将其构成训练集d=(d1,d2,…dx,…,dn),其中n为数据的个数;
s2:对训练集d进行聚类得到聚类结果,构建神经网络模型,根据训练集d和其聚类结果对神经网络模型进行训练后得到最终的多模态制造数据集成模型;
所述对训练集d进行聚类包括以下步骤:
s201:初始化参数:
将训练集d划分为z组,每组的聚类中心设为cy,其中下标y=1,2,3,…,z,设定迭代次数h=0、最大迭代次数h和阈值ε;
s202:用在[0,1]范围内的随机数构建x×y的隶属度矩阵l,矩阵中的任意元素lxy满足如下公式:
其中,lxy表示训练集d中的数据x对于聚类中心cy的隶属程度;
s203:判断迭代次数h是否小于最大迭代次数h,若小于,则设定h=h+1,进入s204,否则,进入s208;
s204:计算每组的聚类中心cy:
s205:计算目标函数j:
其中,fxy=||dx-cy||,表示训练集中第x个数据到第y组的聚类中心cy的欧几理德距离;
s206:判断目标函数j是否小于阈值ε,若小于,则进入s208,否则,进入s207;
s207:更新隶属度矩阵,返回s203,其中隶属度矩阵的更新公式为:
其中,k为参数变量;
s208:输出聚类结果lx:
其中:lx为训练集d中的数据x的聚类划分,公式
s3:通过多模态制造数据集成模型对需要处理的制造数据集进行分类;
s4:对制造数据集进行去噪处理;
s5:对制造数据集进行去冗处理;
s6:识别制造数据集中的缺失值,对缺失值进行填充。
进一步的,步骤s2中,所述神经网络模型为三层bp神经网络,其输入层神经元个数m=7,输出层神经元个数n=1,隐含层神经元个数p由公式
进一步的,步骤s4中的去噪处理具体为:
s401:加载制造数据集;
s402:构建噪声识别函数:
其中,x表示制造数据集中的数据,μ表示制造数据集中数据的均值,σ表示标准差;
s403:任取制造数据集中的数据,计算噪声识别函数f(x),针对制造数据,若其在噪声识别函数f(x)的(μ-1.5σ,μ+1.5σ)以外的概率小于0.15%时,则判定x为噪声数据;
s404:清除噪声数据,直至制造数据集中所有数据均计算完成。
进一步的,步骤s5的去冗处理具体为:
s501:加载制造数据集;
s502:针对制造数据集中的每个数据,将其划分为若干个数据块,计算每个数据块的64位加权哈希值并按位累加,若每位大于1则记1,否则记0,生成指纹集;
s503:针对指纹集中的每个指纹,两两比对每两个“指纹”之间的码距,若码距小于设定的阈值时,判定为冗余数据;
s504:清除冗余数据,直至所有指纹均比对完毕。
进一步的,步骤s6具体为:
s601:加载制造数据集;
s602:采用决策树分类法定位制造数据集中缺失值的具体位置,识别缺失值的属性;
s603:查找制造数据集中与缺失值的对应属性具有相邻时间区域的所有数值;
s604:计算查找的数值的平均值并将平均值填充至缺失值位置处。
进一步的,所述的制造数据通过分布式文件系统hdfs进行存储,采用spark大数据处理引擎、spark弹性分布式数据集的形式进行缓存。
本发明采用如上技术方案,并具有有益效果:
1.通过构建多模态制造数据集成模型将多模态制造数据按模型簇聚类,便于后续环节的数据处理,提高数据可用性。
2.使用数据多级优化清洗策略,提高数据质量,保障数据正确性、一致性、完整性和可靠性。
附图说明
图1所示为本发明实施例的流程图。
图2所示为该实施例中构建多模态制造数据集成模型的流程图。
图3所示为该实施例中训练集数据划分的示意图。
图4所示为该实施例中数据去噪的流程图。
图5所示为该实施例中数据去冗的流程图。
图6所示为该实施例中数据去冗中指纹的示意图。
图7所示为该实施例中数据缺失的示意图。
图8所示为该实施例中数据缺失值填充的流程图。
具体实施方式
为进一步说明实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
本发明实施例提供了一种智能工厂中多模态制造数据预处理的方法,如图1所示,其为本发明实施例所述的一种智能工厂中多模态制造数据预处理的方法的流程图,所述方法包括以下步骤:
步骤1:数据预存储,接收工业数据采集系统所采集的制造数据,并存储于分布式文件系统hdfs中,构成训练集d=(d1,d2,…dx,…,dn),其中,n为数据的个数。
步骤2:利用spark大数据引擎将分布式文件系统hdfs中的训练集d加载至分布式内存后,对训练集d进行聚类得到聚类结果,构建神经网络模型,根据训练集d和其聚类结果对神经网络模型进行训练后得到最终的多模态制造数据集成模型。
如图2所示,步骤2具体包括以下步骤:
步骤201:初始化参数:
将训练集d划分为z个划分组,如图3所示,每组的聚类中心设为cy,其中下标y=1,2,3,…,z,设定迭代次数h=0、最大迭代次数h和阈值ε。
步骤202:初始化隶属度矩阵l:
用在[0,1]范围内的随机数初始化x×y的隶属度矩阵l,矩阵中的任意元素lxy满足如下公式:
式中:lxy表示训练集d中的数据x对于聚类中心cy的隶属程度。
步骤203:判断迭代次数h是否小于最大迭代次数h,若小于,则设定h=h+1,进入步骤204,否则,进入步骤208。
步骤204:计算每个聚类中心cy,计算公式如下:
步骤205:计算目标函数j,计算公式如下:
式中:fxy=||dx-cy||,表示训练集中第x个数据到第y组的聚类中心cy的欧几理德距离;
步骤206:判断目标函数j是否小于阈值ε,若小于,则进入步骤208,否则,进入步骤207;
步骤207:更新隶属度矩阵l,返回步骤203,其中隶属度矩阵的更新公式为:
其中,k为参数变量;
步骤208:输出聚类结果lx,计算公式如下:
其中:lx为训练集d中的数据x的聚类划分,公式
步骤209:采用三层bp神经网络构建模型。
初始化神经网络输入层神经元个数m=7、输出层神经元个数n=1,隐含层神经元个数p由公式
初始化网络权值为[-1,1]之间的随机数值、网络学习速率为[0.01,0.8]之间的随机数值。
步骤210:将训练集d和步骤208的训练集d对应的聚类结果分别作为神经网络的输入和输出进行网络训练。
步骤211:计算输出层期望输出值与实际输出值的偏差e。
步骤212:判断实际输出值的偏差e是否满足偏差条件,若满足则继续步骤213所述的操作,反之,调整神经网络输出层和隐含层的权值,继续步骤210所述的操作。
步骤213:将网络学习得出的最终权值作为后续数据集成所对应的模型权值,并得到多模态制造数据集成模型。
步骤3:通过得到的多模态制造数据集成模型对需要处理的制造数据集进行分类。
由于数据采集、传输技术多样化,从生产现场获取的原始数据往往质量不高,主要表现有数据缺失、数据噪声、维度冗余等,难以直接用于后续的数据挖掘,数据挖掘得到的价值降低,因此该实施例中还包括以下步骤:
步骤4:由于数据中存在错误值,或者数值明显偏离期望值,因此需要对分类后的制造数据集进行去噪处理,如图4所示,包括以下步骤:
步骤401:从分布式内存中加载制造数据集;
步骤402:构建噪声识别函数,公式如下:
其中,x表示制造数据集中的数据,μ表示制造数据集中数据的均值,σ表示标准差。
步骤403:任取制造数据集中的数据,计算噪声识别函数f(x),针对制造数据,若具体数据x在噪声识别函数f(x)的(μ-1.5σ,μ+1.5σ)以外的概率小于0.15%时,判定x为噪声数据,进入步骤404,反之跳转至步骤405;
步骤404:清除步骤403所述的噪声数据;
步骤405:判断制造数据集中的所有数据是否均计算完成,若完成,则算法结束,进入步骤406,否则,继续步骤403所述的操作;
步骤406:将去噪后的制造数据集以spark弹性分布式数据集的形式缓存至分布式内存中。
步骤5:由于数据包含很多重复维度的数据,对后续数据挖掘无意义,因此还需对去噪后的制造数据集采用基于哈希值冗余数据删除方法,去除冗余数据,如图5所示,包括以下步骤:
步骤501:从分布式内存中加载步骤406所述的制造数据集。
步骤502:循环迭代制造数据集,将每次迭代得到的数据划分为若干个数据块,计算每个数据块的64位加权哈希值并按位累加,若每位大于1则记1,否则记0,生成“指纹”集。所述指纹为如图6所示结构。
步骤503:循环迭代“指纹”集,两两比较两个“指纹”的码距,若码距小于设定的阈值时,判定为冗余数据,进入步骤504,否则跳转至步骤505。该实施例中设定阈值为3。
步骤504:清除步骤503所述的冗余数据。
步骤505:判断“指纹”集中的“指纹”是否全部对比完成,若完成则进入步骤506,否则,继续步骤503所述的操作。
步骤506:将去冗后的制造数据集以spark弹性分布式数据集的形式缓存至分布式内存中。
步骤6:另外,在采集的数据中可能出现在时间序列数据中整条数据丢失或者部分维度数据丢失的现象,因此,还需要进行数据缺失值填充,识别制造数据集中的缺失值,对缺失值进行填补处理。所述数据缺失示意图如图7所示。
如图8所示,步骤6包括以下步骤:
步骤601:从分布式内存中加载步骤506所述的制造数据集。
步骤602:采用决策树分类法定位制造数据集中缺失值的具体位置,识别缺失值的属性。
步骤603:循环迭代制造数据集,搜集制造数据集中与缺失值的对应属性具有相邻时间区域(年、月、日、时)的所有数值。
步骤604:计算查找的数值的平均值并将平均值填充至缺失值位置处。
步骤605:将填充后的制造数据集以spark弹性分布式数据集的形式缓存至分布式内存中。
步骤7:数据存储,将经步骤1至步骤6处理后的制造数据集存储于分布式文件系统hdfs中。
本发明实施例通过多模态制造数据集成模型,将多模态制造数据按模型簇聚类,为分类后的制造数据提供包括数据去噪、数据去冗、数据缺失值填充的多级优化清洗策略,采用分布式文件系统hdfs作为数据存储容器,通过spark弹性分布式数据集的形式缓存正在预处理的制造数据,为智能工厂提供高质量的多模态制造数据预处理的方法。与现有技术相比,本发明的积极效果在于:
1.采用分布式文件系统hdfs对海量多模态制造数据进行存储,降低成本,提升存取效率。
2.使用spark大数据处理引擎、spark弹性分布式数据集形式的分布式内存缓存,提高数据读写速度,运算性能大幅度提高。
3.通过构建多模态制造数据集成模型将多模态制造数据按模型簇聚类,便于后续环节的数据处理,提高数据可用性。
4.使用数据多级优化清洗策略,提高数据质量,保障数据正确性、一致性、完整性和可靠性。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
深圳SEO优化公司罗湖网站推广系统成都SEO按天扣费哪家好荷坳关键词排名蚌埠百度竞价报价许昌品牌网站设计池州百姓网标王多少钱泰州关键词排名贵港关键词按天计费推荐菏泽品牌网站设计推荐咸阳关键词排名包年推广报价孝感seo网站推广哪家好贺州百度竞价价格钦州企业网站建设坂田关键词按天计费推荐乌海网站优化按天扣费推荐榆林网站优化按天计费报价黔东南关键词排名包年推广报价朔州网站推广方案价格河源企业网站建设报价阜阳seo网站优化价格普洱优化哪家好张掖seo公司周口百度竞价推荐云浮外贸网站制作莱芜SEO按天计费重庆seo网站推广报价抚顺SEO按天收费公司盘锦百度seo多少钱聊城营销型网站建设哪家好保定百度竞价包年推广多少钱歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运