集成学习学习总结

10 篇文章 2 订阅
订阅专栏


心得体会

参加了开源学习组织datawhale的组队学习,圆满完成集成学习的任务,也带领组员一起坚持了下来,真正领略到机器学习的魅力,写这篇csdn总结一下我所学到的知识,以便后续巩固学习。

在这里谈一下我的感悟:在集成学习的学习中,第一次实践了相关的完整案例,解决给出的实际问题,带入到情景中处理数据,利用集成学习的模型与方法得出预测的相关结论。一趟旅途终了,体会到其实对数据的处理与认知才是最重要的,现在的集成学习的相关模型已经很成熟了,大家都是“调包侠”,有了模型的结构,只要稍加学习训练就能够跑出一样的结果,但真正的区别度在于数据的处理与认知,这决定了集成学习的上限。另外,会跑模型与调包其实是远远不够的,集成学习的难点在于理论推导部分,数学知识的严格证明才是乐趣所在。之前做项目在路演稿里曾经说过这样一句话:“大数据时代谁掌握了数据,谁就掌控了生产资料。谁掌握了算法,谁就掌握了生产力。”直到今天我才明白数据与算法的魅力所在,凭借数据实践算法,利用算法得到数据,数据的处理与模型的融合才是真正的艺术。

在这里感谢datawhale开源社区的小伙伴们给予的学习帮助,今后的学习也要一样加油呀


提示:以下是本篇文章正文内容

一、思维导图

1、数学基础

在这里插入图片描述

2、回归问题

在这里插入图片描述

3、分类问题

在这里插入图片描述

4、集成学习

在这里插入图片描述

5、Bagging

在这里插入图片描述

6、Boosting

在这里插入图片描述

7、Stacking

在这里插入图片描述

二、辨析集成学习三种模型

这里转载datawhale的优秀回答
【每日一问】谈谈你对集成学习的见解与认识,描述一下它们的优势所在?
Datawhale优秀回答者:HipHopMan
集成方法有很多种,一种叫做bagging,bagging的思想是,我把我的数据做一点微小的调整,就得到了一个跟原来不一样的数据集,我就能多训练一个模型出来,模型的数量多了,解释力自然就增强了。比如说我原来有100个人的数据,其中有两个分别叫Tony和Lily,我把Tony这条数据删掉,用Lily的数据来替换,这样就得到了一个跟原来不一样的船新的数据集,这个过程叫做Bootstrap

每一个Bootstrap数据集都能用来训练一次模型,所以我们重复这个过程,比如重复1000次,一次是Tony替代Cici,一次是Ivy替代Yuki,这样每一次都是不一样的数据,也就可以训练1000次,得到了1000个决策树,我们把这1000个决策树打包到一起作为我们最终的模型,这个打包就叫做bagging

一般我们会把bagging跟随机森林一起叠加使用,在数据点的处理上,我们使用bagging来创造许多组(比如说1000组)bootstrap数据,对于每一组数据,我们使用随机森林来训练模型,最后再把所有模型的预测结果bagging起来

第二种集成的方法是boosting,boosting跟bagging一样都属于集成的思想,本质上都是训练很多模型,用数量堆积出质量。还是举1000个model,100个variable的例子,bagging是训练1000个等价的模型,比如说用随机森林,这些模型都是同样随机从100个里面选10个variable出来训练,每一个模型之间是同一级别的、互不干扰的

但boosting的思路和bagging不同,boosting里每一个模型都是基于上一个模型来进行优化,它的核心思想是训练1000个模型,每一个模型在上一个模型的基础上再好一点点

比如说第一个模型的RSS是10,这时候我们基于第一个模型定个小目标,先让RSS减到9,这就是我们的第二个模型,第三个模型的RSS减到8.5…如此往复,得到1000个model,再综合这1000个model得到最终的模型

第三种也是最后一种集成方法是stacking,stacking在字面上更好理解一点,就是堆积、堆砌。如果说bagging和boosting一般都是在决策树的范围内使用,stacking的运用范围会更广一点。例如对于同一个问题,假设还是预测一个人是不是柠檬精,我们首先用Logistic回归跑一遍,再用LDA跑一遍,再用SVM跑一遍,最后用决策树再跑一遍,然后我们用一种方法,比如说是majority polling或是权重加成把这些结果结合到一起,这就是一个stacking的过程

stacking的一个使用场景是我们有很多专家小组,每个小组都训练出了一个自己的模型,当这些模型难以取舍的时候,就干脆一口气打包带走,用stacking把这些模型结合起来,这样谁也不得罪,而且通常也能取得较好的效果。另外在参加各种建模比赛的时候,为了追求一点点精度,我们可以多训练几个模型然后结合起来,有时候也能得到很好的效果。

参考:【1】https://blog.csdn.net/Datawhale/article/details/88563300
【2】https://blog.csdn.net/bymaymay/article/details/77824574

集成学习心得体会
weixin_44868822的博客
09-12 907
集成学习集成学习(Ensemble Learning)通过构建并结合多个基学习器来完成学习任务 bagging和boosting的区别: Bagging主要用于提高泛化性能(解决过拟合,也可以说降低方差) Boosting主要用于提高训练精度 (解决欠拟合,也可以说降低偏差) bagging:分类问题采用投票的方式,回归问题采用平均值的方式。 bagging的缺点:其性能...
集成学习总结&Stacking方法详解
02-24
本文来自于csdn,文章主要介绍了集成学习的几种方法和其相应的应用等相关内容。集成学习主要分为bagging,boosting和stacking方法。本文主要是介绍stacking方法及其应用。但是在总结之前还是先回顾一下继承学习。这...
机器学习---集成学习报告
qq_25368751的博客
04-16 410
常见的结合策略包括投票法(Majority Voting,用于分类任务)、平均法(Averaging,用于回归任务)和加权法(Weighted Voting/Averaging,根据基学习器的性能分配权重)。(Stacked Generalization):训练多个基学习器,然后使用一个新的学习器(称为元学习器或次级学习器)将基学习器的输出作为输入进行训练。最终预测结果通过投票(分类任务)或平均(回归任务)得到。训练集: (1, 2, A), (2, 4, A), (3, 1, B), (3, 3, B)
集成学习个人学习总结
拿科尔小屋
03-20 939
集成学习一般我们常说的集成学习的方法都是指的同质个体学习器。而同质个体学习器使用最多的模型是CART决策树和神经网络。同质个体学习器按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,一系列个体学习器基本都需要串行生成,代表算法是boosting系列算法,第二个是个体学习器之间不存在强依赖关系,一系列个体学习器可以并
集成学习小结
HelloWorld
10-14 2158
![这里写图片描述](http://img.blog.csdn.net/20171014163033446?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDU5MzU3MA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)![这里写图片描述]
集成学习归纳总结
qq_41313964的博客
12-20 292
集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测. 弱分类器&强分类器(弱学习器&强学习器):一个分类器的分类准确在60%-80%,即:比随机预测略好,但准确率却不太高,我们可以称之为“弱分类器”,比如CART(classification and regression tree分类与回归树)。反之,如果分类精度90%以上,则是强分类器。 ...
集成学习总结
sky_ying的博客
10-24 860
集成学习的一些学习总结
集成学习总结
weixin_43271235的博客
03-19 860
为了加深理解并回忆复习,内容就是一个总结过程,没啥新东西。 贵有恒,何必三更起五更睡;最无益,只怕一日曝十日寒。 一、集成学习 理解1、生成个体学习器(基学习器),通过特定的组合策略,搭建强学习器。通俗的讲,就是三个臭皮匠,顶过诸葛亮。 问题1:个体学习器有没有依赖关系?或有多强的依赖关系? 1、个体学习器不存在强依赖关系,那么就有可能并行生成并运行,代表bagging。 2、个体学习器存在强依...
集成学习总结 _ A Notebook1
08-03
写在前面看了不少集成学习的资料,很多算法都有相似之处,看了之后没有进行比较和整理,太容易忘记了,所以这篇来做个笔记。集成学习,(就我目前所学习到的)主要可以分为
集成学习相关知识总结
10-18
机器学习,对集成学习相关的知识整理后形成的ppt。包括相应的结构图。
持续集成学习总结.doc
09-11
持续集成学习总结
机器学习算法总结.docx
11-25
总结了常用机器学习算法的定义和基本原理,比较简要,可用于后期不记得原理或应对面试复习使用,不适合初学者。
集成学习boosting系列算法简述
11-05
集成学习boosting系列算法简述,主要是笔者自己在学习这块相关理论时的一些总结
集成学习中的多样性度量
01-14
集成学习中, 基分类器之间的多样性对于解释多分类器系统的工作机理和构造有效的集成系统具有重要的作用, 但至今仍没有统一的度量多样性的方法. 首先总结介绍常用的多样性度量方法, 阐述每种方法评估多样性的角度和...
学习提醒 | 进阶篇!三个方法详解集成学习实战难题!
PaddlePaddle
03-26 237
点击左上方蓝字关注我们集成学习之路道阻且长,下篇这就给同学们奉上!这节课上,李宏毅老师主要会在课堂上给大家讲解3个不同的方法去解决集成学习的问题,一起来看看吧!1●Bagging通过Bag...
机器学习--集成学习(Ensemble Learning)
WangYouJin321的博客
08-09 742
一. 集成学习集成学习(Ensemble Learning)在机器学习算法中具有较高的准去率,不足之处就是模型的训练过程可能比较复杂,效率不是很高。目前集成学习主要有2种:基于Boosting的和基于Bagging,前者的代表算法有Adaboost、GBDT、XGBOOST等、后者的代表算法主要是随机森林(Random Forest)。 在机器习的有监督...
传统机器学习监督类算法+集成学习模型(非深度学习算法)思维导图Xmind
04-19
包含机器学习监督类算法+集成学习模型(内容来自:《统计机器学习》+《集成学习》+集成学习论文梗概+知乎答主内容总结机器学习理论基础+朴素贝叶斯+感知机+决策树+SVM+随机森林+K近邻+GBDT+Adaboost+XGBoost+...
bagging集成学习
最新发布
11-02
Bagging集成学习是一种常见的集成学习方法,它通过构建多个基分类器并对其进行组合来提高分类的性能。 Bagging的核心思想是基于自助采样法,即从原始训练集中有放回地随机抽取样本,构建多个不同的子训练集。然后使用这些子训练集分别训练多个基分类器。每个基分类器都基于不同的训练子集训练,因此具有一定的差异性。 在分类过程中,Bagging集成学习将多个基分类器的分类结果通过投票的方式进行组合。具体来说,对于二分类问题,可以使用简单多数投票的方式确定最终的分类结果。对于多分类问题,可以采用加权多数投票的方式进行。 Bagging集成学习的优势在于它能够减少过拟合现象,提高模型的泛化能力。通过使用自助采样法,可以扩大训练集的规模,提高样本的利用率,同时引入了数据的随机性。通过组合多个基分类器的结果,可以降低模型的方差,提高模型的鲁棒性。 此外,Bagging集成学习还适用于大规模数据集和高维特征的情况。它可以并行训练多个基分类器,从而加快训练速度。 总结来说,Bagging集成学习是一种通过构建多个基分类器并进行组合的方法,通过自助采样和投票机制提高分类性能,并降低过拟合现象。它适用于大规模数据集和高维特征,具有较好的泛化能力和鲁棒性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • CentOS7安装GCC-8.2.0 6043
  • 在CentOS7系统上搭建MPI环境 5614
  • 如何在html中将带有html标签的字符串解析为正常的html标签 4387
  • 常用环境整理-集群环境搭建之MPI 1522
  • Jupyter notebok 中激活切换虚拟环境 1201

分类专栏

  • Linux 2篇
  • jupyter 1篇
  • 常用环境整理 1篇
  • 时间序列分析 2篇
  • 李宏毅机器学习 6篇
  • 机器学习 10篇
  • mpi

最新评论

  • day7-案例(幸福感预测)详解

    2301_78136285: 请问有index 的数据吗

  • 在CentOS7系统上搭建MPI环境

    balabala1q: --with-device=ch4:ofi 2>&1 | tee c.txt请问是什么意思

  • 在CentOS7系统上搭建MPI环境

    DarkAge_max: 安装时需要注意,“在最底层添加的路径MPICH=/mpi-install”。

  • 在CentOS7系统上搭建MPI环境

    chiyanls: 请问,执行mpirun-profile,提示段吐核,是表示没装好嘛?

  • 在CentOS7系统上搭建MPI环境

    m0_73832543: 全程在root下安装吗?

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 最新有效最简单的OMPL安装教程(折磨结束~~~)
  • Jupyter notebok 中激活切换虚拟环境
  • 常用环境整理-集群环境搭建之MPI
2024年1篇
2022年1篇
2021年20篇
2020年2篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司揭阳SEO按效果付费报价汕尾网站优化推广哪家好自贡企业网站改版拉萨网站搜索优化价格沈阳外贸网站建设价格佛山营销网站大庆百度竞价包年推广推荐贵港SEO按天扣费推荐崇左网站优化推广价格包头seo网站优化推荐陇南企业网站制作报价百色企业网站改版多少钱福州阿里店铺托管张掖网站优化推荐巢湖百度网站优化排名迁安网站制作设计报价济源建站宜昌优化永湖关键词排名包年推广推荐延安seo网站优化公司南澳百度爱采购镇江seo优化多少钱布吉外贸网站建设报价徐州建网站报价开封百搜标王价格嘉兴建网站推荐湘潭网站改版价格东营网站建设设计坂田seo排名公司池州百度标王公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化