【特征学习】利用关联规则和神经网络进行建立新特征

53 篇文章 16 订阅
订阅专栏
    1. 特征学习*
      1. 关联规则为基础的特征学习

决策树对分类来说是很不错的算法,根据某个选定的字段切割数据集,如何再根据另一个字段切割剩下的数据集。

但是它一次只能考虑一个字段。一个是不好解读,一个是准确性会变低。

字段的相关性:

类别型相关性(Categorica-Type)

数值型相关性(Numerical-Type)

如果建立模型,我们能事先找到字段的相关性,那我们肯定可以使决策树变的更好

一下我们之前的案例:

如果我们不事先合并性别收入的出行会出现左侧情况,合并之后分支出去就可以产生一颗更精简的决策树,明明是两个不好的字段,却可以产生更好的结果。

如果考虑字段之间的依赖性,就可以做决策树做到更好。

相依性有3种情况:

1.类别与类别之间的依赖性

2.数值与数值之间的依赖性

3.类别与数值之间的依赖性

为了合并这3种方式:我们可以把数值型离散化就变成类别型了。之前讲过了。那就只用考虑类别型的相依性

这时我们就可以用关联规则寻找相依性。相关性是组合爆炸的问题,如果两两之间就会2的n次方减一。要考虑的实在太多了。

关联规则可以在这些内容里可以找到主要的相关性。

先把所有数值型的数据离散化变成分类型的数据,然后进行关联规则的处理,最后进行决策树等算法。关联规则是在后面机器学习的内容会说。

我们用到的是多维度的关联规则(multidimensional association)

:将表的每一笔数据看成是交易,考虑哪些值的出现会同时出现

然后选出字段了,再丢到决策树里去跑

案例:

因为income是数值型变量,我们要把它变成数值变量

我们直接给它跑决策树,50000为离散化的层次。

于是低于50000我们设定为low,高于50000的我们设定为high

于是我们就把它优数值型变为分类型。

然后我们就可以跑关联规则了。

我们可以用概念阶层,把每个字段,的每个类别编码为数字

数字代表他的类别值

简化一些。然后就可以跑关联规则:

每一个记录都看成一笔交易记录。

然后我们要设定一个阈值,(minimum support)最小出现几次才能视为频繁出现。这边设定为2次

行名代表长度,{1}{4},代表1出现4次。这边就是最少大于2次。因为有3个属性,所以至少要有3个值

进行数据一般化,要把数据提高到属性阶层。

得到的数值如下

关联规则,

我们发现出现gender和income出现次数是8,因为次数够多所以就可以合并。聚类,透过次数看,次数高的先合并。

设定试验,我们设定聚类数为3,跑一个

然后设定聚类数为2:把gender income合并

然后设定聚类数为1:把3个都合并

对比C5指标

最后我们发现

Cluster1:“gender”and“Income”

Cluster2:“State”

所以我们把gender-Income合并

然后我们在跑C5点数,就可以得到很好的结果。

      1. 神经网络为基础的特征学习

案例1:购买股票,解决T+1天大于t天就买,相等就保持,否则就买

人造数据集。

将两个字段排序,进行决策树解读

决策树:

决策树是只能切直线。切出区域。图解如下

在阴影处就会错误,决策树只能切出方正的范围。

这时我们就可以考虑用神经网络,找出数据的相关性。如果大于前一天就买,小于前一天就卖。找到有效的特征。

我们先对字段进行极值标准化(Min-Max)

正规化成0-1,

Input Nodes:2输入字段,

Hidden Nodes:隐藏层,

Out put Nodes输出层(BUY or sell),

Of Example训练次数18次

Of Training训练次数30000

Learning Rate2.0

Decrease by下降到百分之95

Lower Bound最低下降到百分之50

Momentum动量0.5(后面机器学习神经网络会说)

之后看神经网络,可以回头来再看看。产生了新的特征,坐标空间下面的。

再看看新的数据集

跑C5.0决策树规则。发现规则是

当新天数T大于-1.065625时就buy否则就卖。我们把原公式带入

我们把数据带回公式中,进行移项,我们可以发现T+1天大于T天,就BUY。

所以根据神经网络就可以找出属性的依赖性。

案例2:

这个案例是为了寻找你是否欺诈,

第一个是性别,

第二个字段是是否有共享你的phone,

第三个字段是你是否有共用你的e-mail

第四个字段是:联系人是否是同一个人

(如果同时满足,一般都会团伙欺诈。)

所以我们希望合并这3个字段,只有其中一个是满足,100,001,010

如果这个值是一,我们乘以它中间字段的负数值乘以另一个字段的值,加上绿色线的流程结果值,我们就会发现它会大于1,结果就是正数,概率大于0.5,就很可能是团伙。欺诈。只要其中一个是1,

所以要合并起来一起看,结果是这样

然后这时我们可以跑神经网络,也可以跑决策树,我们就会发现结果很好。。

总结:

类别型可以用关联型

数值型可以用神经网络

可以看后面的课程在回头来看这个。会尽快更新

特征工程——特征选择(Feature Selection),特征关联
weixin_43576422的博客
08-09 4096
特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。 可参考这篇文章:结合Scikit-learn介绍几种常用的特征选择方法 常用方法分类 Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。 (去掉取值变化小的特征 Removing
机器学习实战——特征工程之关联规则
Yucen的博客
12-18 1266
关联规则:X->Y 用于表示数据内部隐含的关联性。X称为先导(antecedent或left-hand-side, LHS),Y称为后继(consequent或right-hand-side, RHS)。 支持度:关联规则的支持度support,指的是事件X和事件Y同时发生的概率,支持度越大表明XY两者同时出现越频繁。 support(X->Y) = support(Y->X...
关于《Integrating Deep Learning with Logic Fusion for Information Extraction》中规则神经网络结合的理解
yeweiyang的博客
03-22 1429
阅读感想:本篇文章主要是根据在信息抽取中实体识别和关系抽取任务之间存在一定的关联性,而这种关联性可以体现为逻辑约束的形式。故作者提出了提出了基于描述逻辑的实体识别和关系抽取模型,也是少有的融合符号主义和联结主义的工作。 问题背景:现有的基于pipe-line框架进行信息抽取工作的模型容易产生传播误差,而使用联合训练的深度模型框架却很难强制实体识别和关系抽取任务的一致性。针对上述问题,作者提出将逻...
用GBDT、XGboost、神经网络生成特征
ytyanting的博客
09-19 2634
‘’'python import numpy as np import pandas as pd import xgboost as xgb from sklearn.datasets import make_classification from sklearn.linear_model import LogisticRegression from sklearn.ensemble import...
关联神经网络代码实现
Bill_zhang5的博客
01-11 842
最近看了一篇Correlational Neural Networks 的论文,这篇论文主利用到迁移学习思想 以下是简单的实现代码def Autoencoder(left_input,right_input,left_units=None, right_units=None, hidden_units=None): #Initialization
基于深度神经网络的原发性肝癌证型诊断分类预测模型.pdf
09-25
使用深度神经网络挖掘临床数据和证型之间的非线性关系,建立诊断分类预测模型,并利用该模型对测试集进行证型诊断分类预测。结果表明,该模型的证型预测准确率介于82.86%-92.76%,并且关联规则验证数据集的符合率...
人工智能-机器学习-基于知识挖掘技术的智能协同电力负荷预测研究.pdf
04-15
在预测时通过计算与预测目标各类知识特征的总体关联程度大小,自动提取具有高度相似性综合知识特征的同类历史数据,再结合智能算法和电力负荷预测方法建立具有针对性的自适应结构的智能预测模型对负荷进行预测,...
分布式机器学习平台与算法综述.pptx
最新发布
10-12
5. 深度学习算法:通过建立多层神经网络,从原始数据中学习特征表示和预测模型。常见的深度学习算法包括卷积神经网络、循环神经网络等。 未来发展方向: 1. 混合计算框架:随着不同类型的计算任务和数据集的出现,...
图解机器学习算法.docx
09-13
3、监督学习算法:详细介绍常见的监督学习算法,如线性回归、逻辑回归、决策树、支持向量机、随机森林和神经网络等。 4、无监督学习算法:介绍无监督学习算法,如聚类分析、降维和自编码器等。 5、进阶算法:介绍...
模糊CMAC的柔性空间机器人轨迹跟踪自学习控制 (2012年)
05-20
网络参数采用改进的有监督的Hebb学习规则进行自适应在线调整,并通过关联搜索进行学习和自组织,其误差代价函数由PID控制器提供.仿真结果表明,这种模糊CMAC逆模PID控制器能够达到较高的控制精度,具有一定的工程应用...
特征工程之特征关联
Francis的博客
10-14 3728
特征工程之特征关联 0.说在前面 昨天学习了seaborn绘制图形,以及单变量与多变量之间的绘图,那么今天从统计学角度实战分析在处理特征工程过程中所涉及的三个相关系数(具体的三个系数数学推导,在后续更)。为了更好的便于大家的交流,先建立一个微信总群,二维码在文章最后放出! 【关键字】 相关系数 微信总群 1.皮尔逊 皮尔逊相关系数:Pearson correlation coeffici...
规则网络构建
weixin_46649908的博客
05-27 1597
规则网络构建
网络数据挖掘---关联规则
y-yg的博客
09-24 847
[把好的习惯坚持下去] ——————————————————————————————————————————————————————  ———————————————————————————————————————————————————————— 未完待续~   参考资料: 《web 数据挖掘》 清华大学出版社 刘兵著...
【机器学习算法】模型评估 “神经网络,聚类,向量机,关联规则”算法模型的评估。
qq1021091799qq的博客
01-31 897
数据集的切割,训练测试数据集的切割方式、交叉验证的方法,分类模型的评估混淆矩阵,等决策点的评估,ks图,提升图等模型的评估
深度学习核心技术精讲100篇(四十九)-深度学习关联规则
wenyusuran的专栏
06-15 1644
本文根据清华大学袁博老师慕课网视频整理 文章目录 一、支持度与置信度 二、关联规则误区与注意事项 三、Apriori算法 四、序列模式关联 关联规则分析就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。 “啤酒与尿布”的例子相信很多人都听说过吧,故事是这样的:在一家超市中,人们发现了一个特别有趣的现象,尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了。为什么有这么奇怪现象呢?是.
十二个一的客观特征-主观特征关联性研究
mimimimiii的博客
01-04 310
实验要求 逻辑上而言,每个”一“的感受都来源于其形态,那么我们不禁要问,各个”一“带来的不同感受与它们的形态有何关联呢?为了探索”形态-感受“的关联性,需要对每个”一“的客观造型进行描述,提取特征,这里就需要用到图像处理的技术了。有兴趣的同学可以尝试完成下列任务: 任务主题:针对”一“,定义一系列特征(可借鉴参考资料),并依此对每个”一“进行测量。测量可以分两个层次:1.手工测量;2.用算法实现测...
关于《Harnessing Deep Neural Networks with Logic Rules》对规则融入神经网络的理解
yeweiyang的博客
03-20 1603
阅读感想:最近在总结关于规则怎么与神经网络相结合,所以阅读了ACL16的这篇文章。这篇文章是规则融入神经网络的一篇经典文章,其他关于规则神经网络结合的文章的思想与这篇并无太大区别,只是具体实现方式不同。 问题背景:数据驱动的深度学习方法给人工智能的各个方向带来了巨大的变化,但这种方法依赖大量的标签数据且具有可解释性差、难训练等问题。事实上,人类的行为表明,人类的学习不仅来源于具体的例子,还来源...
深入机器学习系列9-关联规则
Transwarp
09-11 1313
什么是关联规则挖掘?  作为数据挖掘的重要研究方向之一,关联规则挖掘的目的是从事务数据集中分析数据项之间潜在的关联关系,揭示其中蕴含的对于用户有价值的模式。一般认为,关联规则挖掘主要由两个步骤组成:(1)从事务数据集中挖掘所有支持度不小于最小支持度阈值的频繁项集;(2)从上一步结果中生成满足最小置信度阈值要求的关联规则
Python用Apriori 算法关联规则分析亚马逊购买书籍关联推荐客户和网络图可视化
大数据部落
06-01 717
Apriori 算法是一个相当的算法,由 Agrawal 和 Srikant 于 1994 年提出。它是一种用于频繁项集挖掘的算法,允许公司理解和组织向上销售和交叉销售活动。最强大的应用程序之一是我们在亚马逊上在线购物时看到的推荐系统 - 以及当今几乎所有电子商务网站上都存在的各种其他版本。这是为了帮助理解一个非常简单的数据集,其中包含单个国际标准书号 (ISBN),它是一本书的唯一国际出版商标识符号。每行代表购买了所列书籍的唯一客户。目标是了解基本购买行为,向客户推荐的其他书籍是什么——这样它可以提高公
关联规则要求的数据特征和聚类要求的数据特征的不同点
05-22
关联规则和聚类都是数据挖掘中常用的技术,但是它们所要求的数据特征有所不同。 关联规则要求的数据特征是事务型数据...因此,关联规则和聚类所要求的数据特征有所不同,需要针对不同的问题和数据类型进行选择和使用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 【机器学习算法】神经网络与深度学习-3 BP神经网络 6423
  • 【机器学习算法】关联规则-1 关联规则的概念,Apriori算法,实例和优缺点 3882
  • 【机器学习算法】聚类分析-1 聚类是什么,我们如何确定类别间的相似性或者相异性 3272
  • 【机器学习算法】聚类算法-3 K均值聚类法,PAM法,神经网络聚类法SOM 3213
  • 【机器学习算法】聚类分析-2 聚类算法的分类,层次聚类算法的选择 2516

分类专栏

  • 数据挖掘 53篇
  • 活动 1篇

最新评论

  • 【特征工程概要】解释什么是特征,特征工程的步骤

    yxyyy1: 请问有这个数据集吗,继续这个数据集练习

  • 【机器学习算法】聚类算法-3 K均值聚类法,PAM法,神经网络聚类法SOM

    Miaoovo: 太牛啦理解了 请问下有没有som的代码呀 求分享表情包

  • 【机器学习算法】模型评估 “神经网络,聚类,向量机,关联规则”算法模型的评估。

    韩曙亮: 机器学习相关内容,讲解的深入透彻,感谢分享

  • 【机器学习算法】模型评估 “神经网络,聚类,向量机,关联规则”算法模型的评估。

    Coder个人博客: 不错不错总结的非常细致到位

  • 【机器学习算法】模型评估 “神经网络,聚类,向量机,关联规则”算法模型的评估。

    Alita11101_: 很棒的文章,支持博主,学到了新知识

大家在看

  • P1017 [NOIP2000 提高组] 进制转换【进制】
  • Java数组:基础、应用与优化

最新文章

  • 【机器学习算法】模型评估 “神经网络,聚类,向量机,关联规则”算法模型的评估。
  • 【机器学习算法】序列模式 序列模式的概念,构建模式的算法:Aprioriall算法和SrefixSpan算法
  • 【机器学习算法】关联规则-3 关联规则的指标问题和关联规则的使用方法
2023年1篇
2022年53篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

晴天qt01

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司南通网站推广系统多少钱昆明网站搜索优化公司清远网站推广工具报价金华网站排名优化报价包头网站优化按天计费济源优秀网站设计多少钱成都外贸网站建设公司台州关键词按天计费推荐南通seo网站推广报价毕节百度网站优化哪家好赣州网络广告推广多少钱阜新企业网站改版公司青岛百姓网标王推广推荐巢湖网站优化按天扣费多少钱荆门阿里店铺运营公司青岛关键词排名公司凉山百搜标王公司延边企业网站设计资阳网页制作多少钱平凉建网站多少钱固原网站设计推荐南山关键词按天计费推荐辽源网站优化软件报价鸡西网站关键词优化公司红河SEO按天计费公司吴忠seo多少钱陇南网站建设设计多少钱白山阿里店铺托管推荐威海seo网站推广公司张家口推广网站价格歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化