备案 控制台
开发者社区 人工智能 文章 正文

数据挖掘的入门概念

简介:

1 数据挖掘

数据挖掘(Data Mining,简称DM),是指从大量的数据中,挖掘出未知的且有价值的信息和知识的过程。

2 机器学习 与 数据挖掘

与数据挖掘类似的有一个术语叫做”机器学习“,这两个术语在本质上的区别不大,如果在书店分别购买两本讲数据挖掘和机器学习的书籍,书中大部分内容都是互相重复的。具体来说,小的区别如下:

机器学习:更侧重于技术方面和各种算法,一般提到机器学习就会想到语音识别,图像视频识别,机器翻译,无人驾驶等等各种其他的模式识别,甚至于谷歌大脑等AI,这些东西的一个共同点就是极其复杂的算法,所以说机器学习的核心就是各种精妙的算法。

数据挖掘:更偏向于“数据”而非算法,而且包括了很多数据的前期处理,用爬虫爬取数据,然后做数据的清洗,数据的整合,数据有效性检测,数据可视化(画图)等等,最后才是用一些统计的或者机器学习的算法来抽取某些有用的“知识”。前期数据处理的工作比较多。

所以,数据挖掘的范畴要更广泛一些。

3 数据挖掘所覆盖的学科

数据挖掘是一门交叉学科,覆盖了统计学、计算机程序设计、数学与算法、数据库、机器学习、市场营销、数据可视化等领域的理论和实践成果

4 数据挖掘的误区

误区一:算法至上论。认为数据挖据是某些对大量数据操作的算法,这些算法能够自动地发现新的知识。

误区二:技术至上论。认为数据挖据必须需要非常高深的分析技能,需要精通高深的数据挖掘算法,需要熟练程序开发设计。

这两种认知都有一定的偏颇。实际上,数据挖掘本质上是人们处理商业问题的方法,通过适量的数据挖掘来获得有价值的结果,技术在随着大数据时代的来临变得愈发重要,但是最好的数据挖掘工程师往往是那些熟悉和理解业务的人。

5 数据挖掘能解决什么问题

商业上的问题多种多样,例如:

“如何能降低用户流失率?”

“某个用户是否会响应本次营销活动?“

"如何细分现有目标市场?"

“如何制定交叉销售策略以提升销售额?”

“如何预测未来销量?”

从数据挖掘的角度看,都可以转换为五类问题:

分类问题

聚类问题

回归问题

关联分析

推荐系统

5.1 分类问题

简单来说,就是根据已经分好类的一推数据,分析每一类的潜在特征建立分类模型。对于新数据,可以输出新出具属于每一类的概率。

比如主流邮箱都具备的垃圾邮件识别功能:一开始,正常邮件和垃圾邮件都是混合在一起的,如果我们手工去点击哪些是垃圾邮件,逐渐的,垃圾邮件就会自动被识别放到垃圾文件夹。如果我们对于混在正常邮件中的垃圾持续进行判断,系统的识别率就会越来越高。我们人工点击判断,相当于预先分类(两类:垃圾邮件和非垃圾邮件),系统就会自己学习两类邮件的特征建立模式,对于新邮件,会根据模式判断属于每个类别的可能性。

分类算法示意

5.2 聚类问题

和分类算法是不同概念,但是工作中业务人员经常误用。 聚类的的目的也是把数据分类,但类别并不是预先定义的,算法根据“物以类聚”的原则,判断各条数据之间的相似性,相似的就归为一类。

比如我有十万消费者的信息数据,比如包括性别,年龄,收入,消费等,通过聚类的方法事可以把这些数据分成不同的群,理论上每群用户内都是相似性较高的,就可以覆盖分群用户制定不同的策略

聚类算法示意

5.3 回归问题

回归问题和分类问题有点类似,但是回归问题中的因变量是一个数值,而分类问题,最终输出的因变量是一个类别。简单理解,就是定义一个因变量,在定义若干自变量,找到一个数学公式,描述自变量和因变量之间的关系。

比如,我们要研究房价(Y),然后收集房子距离市中心的距离(X1),面积(X2),收集足够多的房子的数据,就可以建立一个房价和距离、面积的方程式(例如Y=aX1+bX2),这样给出一个新的距离和面积数据,就可以预测这个房子的价格。

回归问题示意

5.4 关联分析

关联分析主要就是指”购物篮分析“,很有名气案例是【啤酒与尿布】的故事,”据说“这是一个真实的案例:沃尔玛在分析销售记录时,发现啤酒和尿布经常一起被购买,于是他们调整了货架,把两者放在一起,结果真的提升了啤酒的销量。后来还分析背后的原因,说是因为爸爸在给宝宝买尿布的时候,会顺便给自己买点啤酒……

所以,关联分析就是基于数据识别产品之间潜在的关联,识别有可能频繁发生的模式。

5.5 推荐系统

利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。也就是平时我们在浏览电商网站、视频网站、新闻App中的"猜你喜欢"、“其他人也购买了XXX”等类似的功能。

5.6 数据挖掘的工作流程

数据挖掘的通用流程叫做CRISP-DM(Cross Industry Standard Process-Data Mining)数据挖掘方法论。

CRISP-DM

6.1 商业理解

商业理解阶段主要完成对商业问题的界定,以及对企业内外部资源进行评估与组织,最终确定将企业的商业目标转化为数据挖掘目标,并制定项目的方案

6.2 数据理解

了解企业目前数据现状,提出数据需求,并尽可能多的收集数据。通过初步的数据探索,快速了解数据的质量

6.3 数据准备

在建立数据挖掘模型之前对数据做最后的准备工作,主要是把收集到的各部分数据关联起来,形成一张最终数据宽表。这个阶段其实是耗时最长的阶段,一般会占据整个数据挖掘项目的70%左右的时间,包括数据导入、数据抽取、数据清洗、数据合并、新变量计算等工作。

6.4 模型构建

模型构建是数据挖掘工作的核心阶段。主要包括准备模型的训练集和验证集,选择并使用适当的建模技术和算法,模型建立,模型效果对比等工作

6.5 模型评估

模型评估主要从两个方面进行评价:

1)技术层面:

- 设计对照组进行比较。

- 根据常用的模型评估指标进行评价,如命中率、覆盖率、提升度等

2)业务经验:业务专家凭借业务经验对数据挖掘结果进行评估

6.6 模型部署

将数据挖掘成果程序化,将模型写成存储过程固化到IT平台上,并持续观察模型衰退变化,在发生模型衰退时,引入新的变量进行模型优化。


本文作者:程Sir 程SIR说

来源:51CTO

知与谁同
目录
相关文章
热烈的马
|
8天前
|
运维 安全 数据挖掘
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
热烈的马
188 0
热烈的马
|
8天前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】神经网络与感知机基础概念讲解(图文解释 超详细)
【数据挖掘】神经网络与感知机基础概念讲解(图文解释 超详细)
热烈的马
44 0
【数据挖掘】神经网络与感知机基础概念讲解(图文解释 超详细)
热烈的马
|
8天前
|
机器学习/深度学习 存储 编解码
【数据挖掘】网格聚类STING、概念聚类COBWEB和模糊聚类的讲解(图文解释)
【数据挖掘】网格聚类STING、概念聚类COBWEB和模糊聚类的讲解(图文解释)
热烈的马
156 0
热烈的马
|
8天前
|
机器学习/深度学习 数据挖掘 BI
【数据挖掘】回归分析定义、概念、分类、过程讲解(图文解释 超详细)
【数据挖掘】回归分析定义、概念、分类、过程讲解(图文解释 超详细)
热烈的马
103 0
汀丶人工智能
|
机器学习/深度学习 存储 传感器
【机器学习入门与实践】合集入门必看系列,含数据挖掘项目实战
【机器学习入门与实践】合集入门必看系列,含数据挖掘项目实战
汀丶人工智能
170 0
汀丶人工智能
|
机器学习/深度学习 数据可视化 算法
【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等)
【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等)
汀丶人工智能
324 0
韩曙亮
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)
韩曙亮
130 0
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)
韩曙亮
|
存储 机器学习/深度学习 SQL
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(一)
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(一)
韩曙亮
160 0
韩曙亮
|
算法 数据挖掘 Windows
【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
韩曙亮
148 0
韩曙亮
|
编解码 算法 数据挖掘
【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )
【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )
韩曙亮
493 0
【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )

热门文章

最新文章

  • 1
    数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
  • 2
    探索数据挖掘中的特征选择算法
  • 3
    【Python数据挖掘课程】八.关联规则挖掘及Apriori实现购物推荐
  • 4
    工具推荐 | 分析大数据最需要的Top 10数据挖掘工具
  • 5
    150+面试题,十大必读书,数据挖掘offer轻松搞定 | 面试宝典系列
  • 6
    数据挖掘实战:带你做客户价值分析(附代码)
  • 7
    限时免费报名!社交媒体大数据挖掘与应用 | 阿里云ACE线下活动-合肥首场
  • 8
    数据挖掘实战(一):Kaggle竞赛经典案例剖析
  • 9
    数据挖掘与数据化运营实战
  • 10
    工程院院士李德毅:数据挖掘就是云环境下的搜索服务
  • 1
    API电商接口大数据分析与数据挖掘 (商品详情店铺)
    409
  • 2
    预测未来:Python 数据挖掘案例
    65
  • 3
    数据挖掘实战:基于KMeans算法对超市客户进行聚类分群
    202
  • 4
    【Python数据挖掘】优化电能能源策略:基于非侵入式负荷检测与分解的智能解决方案
    39
  • 5
    Python数据挖掘项目实战——自动售货机销售数据分析
    119
  • 6
    基于非侵入式负荷检测与分解的电力数据挖掘
    37
  • 7
    通过案例理解数据挖掘
    45
  • 8
    数据挖掘之旅:京东商品详情API与销售策略的优化
    32
  • 9
    探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
    138
  • 10
    百度2024校招机器学习、数据挖掘、自然语言处理方向面试经历
    155
  • 相关课程

    更多
  • 高校精品课-北京理工大学-数据仓库与数据挖掘(下)
  • 高校精品课-北京理工大学-数据仓库与数据挖掘(上)
  • 数据挖掘入门与实践
  • 机器学习原理与实践
  • 机器学习入门-概念原理及常用算法
  • 【算法实战】1. 机器学习基础
  • 相关电子书

    更多
  • 代码大数据分析研究与实践
  • 机器学习及人机交互实战
  • 机器学习之人机交互实战
  • 相关实验场景

    更多
  • 零基础入门Serverless:基于函数计算快速搭建基于人工智能的目标检测系统
  • 自然语言入门:NLP数据读取与数据分析
  • 函数计算实战-云开发创建视觉AI应用
  • 下一篇
    2024年阿里云免费云服务器及学生云服务器申请教程参考

    深圳SEO优化公司盐田SEO按天收费多少钱眉山关键词按天计费哪家好和田百度网站优化排名公司玉树seo优化公司永湖百度竞价包年推广公司延安阿里店铺托管多少钱南宁网站搭建公司鹤岗seo商洛企业网站改版价格沧州网站关键词优化报价烟台网页设计公司清徐网站优化吉安高端网站设计价格诸城关键词按天计费怀化关键词按天扣费公司阿里关键词按天扣费价格恩施网站推广系统多少钱桐城seo多少钱潍坊外贸网站设计报价海北网站推广系统推荐丹竹头网站改版报价鸡西网站优化按天收费哪家好仙桃至尊标王价格佛山网站搜索优化报价淄博网站制作设计价格德州网页制作大庆百度标王多少钱襄阳SEO按天收费报价珠海高端网站设计价格拉萨百度标王价格歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

    深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化