篇一：数据挖掘实验报告

数据挖掘实验报告
——K-最临近分类算法

学号：311062202 姓名：汪文娟

一、 数据源说明

1.数据理解

选择第二包数据Iris Data Set，共有150组数据,考虑到训练数据集的随机性和多样性，选择rowNo模3不等于0的100组作为训练数据集，剩下的50组做测试数据集。

（1)每组数据有5个属性，分别是：1. sepal length in cm

2. sepal wrowNoth in cm

3. petal length in cm

4. petal wrowNoth in cm

5. class:

-- Iris Setosa

-- Iris Versicolour

-- Iris Virginica

（2) 为了操作方便，对各组数据添加rowNo属性,且第一组rowNo=1。

2.数据清理

现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值，光滑噪声并识别离群点，并纠正数据中的不一致。

a) 缺失值：当数据中存在缺失值是，忽略该元组（注意：本文选用的第二组数据Iris Data Set的Missing Attribute Values: None）。

…… …… 余下全文

篇二：数据挖掘实验报告

《数据挖掘》实验报告1

实验序号：1　　　　　　　　　　实验项目名称：数据挖掘入门及C4.5算法

《数据挖掘》实验报告2

实验序号：4　　　　　　　　　实验项目名称：Apriori

…… …… 余下全文

篇三：数据挖掘实验报告4

甘肃政法学院

本科生实验报告

（四）

姓名: 贾燚

学院:计算机科学学院

专业:信息管理与信息系统

班级:10级信管班

实验课程名称:数据仓库与数据挖掘

实验日期:20##年11月9日

指导教师及职称:朱正平

实验成绩:

开课时间：20##-20##学年二学期

甘肃政法学院实验管理中心印制

…… …… 余下全文

篇四：数据挖掘实验报告

数据挖掘实验报告

——药物研究

专业：

学号：

姓名：

时间：2011.12.08

一、实验目的

1、学习数据挖掘的理论知识，理解数据挖掘的目的和意义；

2、熟悉SPSS Clementine软件的功能，并学习使用该软件对数据进行分析；

3、对该软件提供的数据DRUG1n进行分析，了解人体的血压、类胆固醇、Na、K等的含量对人体的健康状况的影响。

二、实验环境

系统环境：Windows XP

软件环境：SPSS Clementine11.1

软件简介：作为一个数据挖掘平台， Clementine结合商业技术可以快速建立预测性模型，进而应用到商业活动中，帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比， Clementine其功能强大的数据挖掘算法，使数据挖掘贯穿业务流程的始终，在缩短投资回报周期的同时极大提高了投资回报率。

SPSS Clementine软件中提供的数据DRUG1n，一共有200条数据，包含7个字段分别是Age（年龄）、 Sex（性别）、 BP（血压）、 Cholesterol （类胆固醇含量）、Na （Na含量）、K（K含量）、 Drug（药品种类）。

三、实验数据

本实验所使用的数据是SPSS Clementine软件中提供的数据DRUG1n，一共有200条数据，包含7个字段分别是Age（年龄）、 Sex（性别）、 BP（血压）、 Cholesterol （类胆固醇含量）、Na （Na含量）、K（K含量）、 Drug（药品种类）。

…… …… 余下全文

篇五：数据挖掘实验报告

计算机科学与技术系

数据挖掘实验报告

姓名：

学号：

授课教师：

完成时间：

数据挖掘实验报告评分

目录

1 数据挖掘综述... 4

1.1 什么是数据挖掘... 4

1.2 数据挖掘的功能... 4

1.3 数据挖掘的一般流程... 5

2 关联规则挖掘... 5

2.1 什么是关联规则挖掘及Apriori算法... 5

…… …… 余下全文

篇六：数据挖掘实验报告

机器学习与数据挖掘

学生姓名：

学号：6008

专业：计算机科学与技术

班级：计算机2084班

1实验内容

（1）在C4.5算法中数据集大小与精度之间的关系

（2）属性个数对该关系的影响

2实验思路

实验要求探究数据集大小与C4.5精度的关系以及数据属性个数对这个关系的影响。对于第一个问题来说，影响算法精度的因素很多，数据集大小只是其中的一个。在研究训练集对算法精度影响实验中要求固定其他影响因素，即在实验中分析训练集大小与C4.5精度的关系时，对训练集进行多次不同随机采样，采用同样的测试集测试模型精度并记录每次测试的结果，最后分析比较得出结论。在研究测试集对算法精度影响时，采用同样的训练集对测试集进行不同的抽样得到不同的测试集，然后进行测试并记录结果，对结果进行归纳总结得出结论。对于第二个问题，使用同一个数据集，采用带筛选器的分类器，对处理后的数据进行10重交叉验证，记录所得精度，修改筛选器的抽样比率，得到不同的数据集，重复实验，比较得最后的结论。

此次试验要求采用多组数据进行相同的测试，最后分析归纳得出结论。

3实验过程

对实验数据进行预处理，将数据中的数值型数据转变为离散型数据。使用weka.filters.unsupervised.attribute.Discretize将数据集中的数据离散化。选中Choose中的Discretize得到图2的界面进行参数设置attributeIndices设置的是想要离散化属性的标号，bins设置将属性离散为几个离散值。这里设置的是将第1,5,10个属性分别离散到三个数据段内。点击确定返回主页面并点击Apply完成离散化。

图1

3.1数据集大小与精度之间的关系

3.1.1训练集大小与C4.5算法精度之间的关系

…… …… 余下全文

篇七：数据挖掘实验报告

数据挖掘实验报告

班级： 　　　　　

学号：　　　　　　　

姓名：

一，实验目的：掌握使用weka对数据进行apriori算法、分类以及聚类的实现方法。

二，实验内容：对数据进行apriori算法、分类和聚类的分析，其功能为：

　　（1） apriori算法：用该算法对一组关联规则进行分析并计算其支持度和置信度，以此来衡量它的中他的重要性。

　　（2）分类：用以区分不同类的对象，预测未知记录的类标。

（3）聚类：WEKA中实现K均值的算法。点击旁边的文本框，修改“numClusters”为6，说明我们希望把这600条实例聚成6类，即K=6。下面的 “seed”参数是要设置一个随机种子，依此产生一个随机数，用来得到K均值算法中第一次给出的K个簇中心的位置。我们不妨暂时让它就为10。

三，实验原理：

1，apriori算法：对于一条关联规则L->R，我们常用支持度（Support）和置信度（Confidence）来衡量它的重要性。规则的支持度是用来估计在一个购物篮中同时观察到L和R的概率P(L,R)，而规则的置信度是估计购物栏中出现了L时也出会现R的条件概率P(R|L)。关联规则的目标一般是产生支持度和置信度都较高的规则。

2，分类：对训练集数据进行分析分类，按这种分类方法将预测集的数据进行分类，预测未知记录的类标。

3，聚类(k-means算法)：根据数据中的发现的描述对象及其关系的信息，将数据对象分组。

四，实验步骤：

1，apriori算法：

(1) 数据准备：对实验数据进行处理，导入数据；

(2) 参数设置：按实验要求进行相关参数的设置，

…… …… 余下全文

篇八：数据挖掘实验报告模板

湖南工程学院数据挖掘 实验报告

…… …… 余下全文

数据挖掘实验报告

篇一 ：数据挖掘实验报告

数据挖掘实验报告 ——K-最临近分类算法

篇二 ：数据挖掘实验报告

篇三 ：数据挖掘实验报告4

篇四 ：数据挖掘实验报告

一、实验目的

二、实验环境

三、实验数据

篇五 ：数据挖掘实验报告

篇六 ：数据挖掘实验报告

篇七 ：数据挖掘实验报告

篇八 ：数据挖掘实验报告模板

篇一：数据挖掘实验报告

数据挖掘实验报告
——K-最临近分类算法

篇二：数据挖掘实验报告

篇三：数据挖掘实验报告4

篇四：数据挖掘实验报告

篇五：数据挖掘实验报告

篇六：数据挖掘实验报告

篇七：数据挖掘实验报告

篇八：数据挖掘实验报告模板