篇一 :数据挖掘实验报告

数据挖掘实验报告
——K-最临近分类算法

学号:311062202  姓名:汪文娟

一、    数据源说明

1.数据理解

选择第二包数据Iris Data Set,共有150组数据,考虑到训练数据集的随机性和多样性,选择rowNo模3不等于0的100组作为训练数据集,剩下的50组做测试数据集。

(1)每组数据有5个属性,分别是:1. sepal length in cm

     2. sepal wrowNoth in cm

     3. petal length in cm

     4. petal wrowNoth in cm

     5. class:

         -- Iris Setosa

         -- Iris Versicolour

         -- Iris Virginica

(2) 为了操作方便,对各组数据添加rowNo属性,且第一组rowNo=1。

2.数据清理

现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致。

a)   缺失值:当数据中存在缺失值是,忽略该元组(注意:本文选用的第二组数据Iris Data Set的Missing Attribute Values: None)。

…… …… 余下全文

篇二 :数据挖掘实验报告

《数据挖掘》实验报告1

实验序号:1          实验项目名称:数据挖掘入门及C4.5算法

《数据挖掘》实验报告2

实验序号:4         实验项目名称:Apriori

…… …… 余下全文

篇三 :数据挖掘实验报告4

甘肃政法学院

本科生实验报告

(四)

姓名: 贾燚

学院:计算机科学学院

专业:信息管理与信息系统

班级:10级信管班

实验课程名称:数据仓库与数据挖掘

实验日期:20##年11月9日

指导教师及职称:朱正平

实验成绩:

开课时间:20##-20##学年二学期

甘肃政法学院实验管理中心印制

…… …… 余下全文

篇四 :数据挖掘实验报告

数据挖掘实验报告

——药物研究

                                     专业:

学号:

姓名:

时间:2011.12.08


一、实验目的

1、学习数据挖掘的理论知识,理解数据挖掘的目的和意义;

2、熟悉SPSS Clementine软件的功能,并学习使用该软件对数据进行分析;

3、对该软件提供的数据DRUG1n进行分析,了解人体的血压、类胆固醇、Na、K等的含量对人体的健康状况的影响。

二、实验环境

系统环境:Windows XP

软件环境:SPSS Clementine11.1

软件简介:作为一个数据挖掘平台, Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比, Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。

SPSS Clementine软件中提供的数据DRUG1n,一共有200条数据,包含7个字段分别是Age(年龄)、 Sex(性别)、 BP(血压)、 Cholesterol (类胆固醇含量)、Na (Na含量)、K(K含量)、 Drug(药品种类)。

三、实验数据

本实验所使用的数据是SPSS Clementine软件中提供的数据DRUG1n,一共有200条数据,包含7个字段分别是Age(年龄)、 Sex(性别)、 BP(血压)、 Cholesterol (类胆固醇含量)、Na (Na含量)、K(K含量)、 Drug(药品种类)。

…… …… 余下全文

篇五 :数据挖掘实验报告

计算机科学与技术系

数据挖掘实验报告

姓        名:                  

学        号:                  

授  课 教 师:                  

完  成 时 间:                  


                  数据挖掘实验报告评分


目  录

1 数据挖掘综述... 4

1.1 什么是数据挖掘... 4

1.2 数据挖掘的功能... 4

1.3 数据挖掘的一般流程... 5

2 关联规则挖掘... 5

2.1 什么是关联规则挖掘及Apriori算法... 5

…… …… 余下全文

篇六 :数据挖掘实验报告

机器学习与数据挖掘

学生姓名:

学    号:6008

专    业:计算机科学与技术

班    级:计算机2084班


1实验内容

(1)在C4.5算法中数据集大小与精度之间的关系

(2)属性个数对该关系的影响

2实验思路

实验要求探究数据集大小与C4.5精度的关系以及数据属性个数对这个关系的影响。对于第一个问题来说,影响算法精度的因素很多,数据集大小只是其中的一个。在研究训练集对算法精度影响实验中要求固定其他影响因素,即在实验中分析训练集大小与C4.5精度的关系时,对训练集进行多次不同随机采样,采用同样的测试集测试模型精度并记录每次测试的结果,最后分析比较得出结论。在研究测试集对算法精度影响时,采用同样的训练集对测试集进行不同的抽样得到不同的测试集,然后进行测试并记录结果,对结果进行归纳总结得出结论。对于第二个问题,使用同一个数据集,采用带筛选器的分类器,对处理后的数据进行10重交叉验证,记录所得精度,修改筛选器的抽样比率,得到不同的数据集,重复实验,比较得最后的结论。

此次试验要求采用多组数据进行相同的测试,最后分析归纳得出结论。

3实验过程

对实验数据进行预处理,将数据中的数值型数据转变为离散型数据。使用weka.filters.unsupervised.attribute.Discretize将数据集中的数据离散化。选中Choose中的Discretize得到图2的界面进行参数设置attributeIndices设置的是想要离散化属性的标号,bins设置将属性离散为几个离散值。这里设置的是将第1,5,10个属性分别离散到三个数据段内。点击确定返回主页面并点击Apply完成离散化。

图1

3.1数据集大小与精度之间的关系

3.1.1训练集大小与C4.5算法精度之间的关系

…… …… 余下全文

篇七 :数据挖掘实验报告

    数据挖掘实验报告

班    级:       

学    号:       

姓    名:   

一,实验目的:掌握使用weka对数据进行apriori算法、分类以及聚类的实现方法。

二,实验内容:对数据进行apriori算法、分类和聚类的分析,其功能为:

  (1) apriori算法:用该算法对一组关联规则进行分析并计算其支持度和置信度,以此来衡量它的中他的重要性。

  (2)分类:用以区分不同类的对象,预测未知记录的类标。

(3)聚类:WEKA中实现K均值的算法。点击旁边的文本框,修改“numClusters”为6,说明我们希望把这600条实例聚成6类,即K=6。下面的 “seed”参数是要设置一个随机种子,依此产生一个随机数,用来得到K均值算法中第一次给出的K个簇中心的位置。我们不妨暂时让它就为10。

三,实验原理:

1,apriori算法:对于一条关联规则L->R,我们常用支持度(Support)和置信度(Confidence)来衡量它的重要性。规则的支持度是用来估计在一个购物篮中同时观察到L和R的概率P(L,R),而规则的置信度是估计购物栏中出现了L时也出会现R的条件概率P(R|L)。关联规则的目标一般是产生支持度和置信度都较高的规则。

2,分类:对训练集数据进行分析分类,按这种分类方法将预测集的数据进行分类,预测未知记录的类标。

3,聚类(k-means算法):根据数据中的发现的描述对象及其关系的信息,将数据对象分组。

四,实验步骤

1,apriori算法:

 (1) 数据准备:对实验数据进行处理,导入数据;

 (2) 参数设置:按实验要求进行相关参数的设置,

…… …… 余下全文

篇八 :数据挖掘实验报告模板

湖南工程学院数据挖掘 实验报告

…… …… 余下全文

推荐阅读

weka数据挖掘实验报告(八篇)

数据仓库与数据挖掘实验报告(八篇)

数据挖掘报告(八篇)

数据库实验报告(八篇)

数据挖掘开题报告(八篇)

实验报告数据处理(八篇)

数据库实验报告3(八篇)

猜你喜欢

创业场地补贴申请表

微型企业创业投资计划书(范文)了

思修调研报告

计算机课学习心得发展历程

房地产业行业分析报告(八篇)

初中地理教学反思(八篇)

深圳SEO优化公司庆阳关键词排名推荐石家庄网站推广哪家好长葛优秀网站设计价格盘锦网站搜索优化价格坑梓网络营销哪家好通辽建网站推荐廊坊网络广告推广多少钱包头模板网站建设公司平凉外贸网站制作价格信阳网站推广工具公司坪山seo网站优化哪家好泰州企业网站设计报价福田企业网站改版多少钱岳阳seo多少钱济源优秀网站设计承德百搜标王海东seo优化哪家好揭阳网站优化排名报价景德镇建网站哪家好庆阳高端网站设计价格河池至尊标王盐城设计网站公司南平seo网站优化推荐民治网站推广方案哪家好大芬网站优化按天收费哪家好德州网站优化排名哪家好飞来峡百姓网标王多少钱安康网站开发多少钱辽阳关键词按天收费多少钱襄阳营销网站多少钱歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化