《数据挖掘》
实 验 报 告
院 (部): 管理工程学院 专 业:信息管理与信息系统 实验项目: 聚类分析实验 班 级: 信管112 姓 名: 李朝阳 学 号: 02
聚类分析实验指导书
实验目的:
1熟悉R语言的相关对象与函数的用法 2掌握利用R进行聚类分析的基本步骤 实验内容:
说明:本实验采用iris数据集,下面中的数据集如无上下文说明,即是指iris
iris以鸢尾花的特征作为数据来源,数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性,是在数据挖掘、数据分类中非常常用的测试集、训练集。
四个属性分别为:花萼长度、花萼宽带、花瓣长度、花瓣宽度
三类分别为:setosa, versicolor, virginica(山鸢尾、变色鸢尾和维吉尼亚鸢尾)
1对数据集进行初步的统计与分析 (1) 数据集的维度-dim
(2) 数据集中的列名-names
(3) 数据集的内部结构-str
(4) 数据集的属性-attributes
(5) 查看数据集的前五条数据情况
(6) 查看数据集中属性前10行数据
(7) 显示数据集中每个变量的分布情况-summary
(8) 数据集列Species中各个值出现频次
(9) 根据列Species画出饼图-pie
(10) 算出列的所有值的方差-var
(11) 算出列iris$和iris$的协方差-cov
(12) 算出列iris$和iris$的相关系数-cor
(13) 画出列iris$分布柱状图
(14) 画出列iris$的密度函数图
(15) 画出列iris$和iris$的散点图?
(16) 绘出矩阵各列的散布图-plot
2使用knn包进行Kmean聚类分析
(1) 将数据集进行备份newiris<-iris,将列newiris$Species置为空
newiris$Species<-NULL,将此数据集作为测试数据集
(2) 在数据集newiris上运行Kmean聚类分析, 将聚类结果保存在kc中。在
kmean函数中,将需要生成聚类数设置为3(kmean(newiris,3))
(3) 创建一个连续表,在三个聚类中分别统计各种花出现的次数-table
(4) 根据最后的聚类结果画出散点图,数据为结果集中的列\"\"和\"\",颜色为用
1,2,3表示的缺省颜色
因篇幅问题不能全部显示,请点此查看更多更全内容