聚类分析实验指导书

来源：飒榕旅游知识分享网

《数据挖掘》

实验报告

院（部）：管理工程学院专业：信息管理与信息系统实验项目：聚类分析实验班级：信管112 姓名：李朝阳学号： 02

聚类分析实验指导书

实验目的：

1熟悉R语言的相关对象与函数的用法 2掌握利用R进行聚类分析的基本步骤实验内容：

说明：本实验采用iris数据集，下面中的数据集如无上下文说明，即是指iris

iris以鸢尾花的特征作为数据来源，数据集包含150个数据集，分为3类，每类50个数据，每个数据包含4个属性，是在数据挖掘、数据分类中非常常用的测试集、训练集。

四个属性分别为：花萼长度、花萼宽带、花瓣长度、花瓣宽度

三类分别为:setosa, versicolor, virginica（山鸢尾、变色鸢尾和维吉尼亚鸢尾）

1对数据集进行初步的统计与分析（1）数据集的维度-dim

（2）数据集中的列名-names

（3）数据集的内部结构-str

（4）数据集的属性-attributes

（5）查看数据集的前五条数据情况

（6）查看数据集中属性前10行数据

（7）显示数据集中每个变量的分布情况-summary

（8）数据集列Species中各个值出现频次

（9）根据列Species画出饼图-pie

（10）算出列的所有值的方差-var

（11）算出列iris$和iris$的协方差-cov

（12）算出列iris$和iris$的相关系数-cor

（13）画出列iris$分布柱状图

（14）画出列iris$的密度函数图

（15）画出列iris$和iris$的散点图?

（16）绘出矩阵各列的散布图-plot

2使用knn包进行Kmean聚类分析

（1）将数据集进行备份newiris<-iris，将列newiris$Species置为空

newiris$Species<-NULL，将此数据集作为测试数据集

（2）在数据集newiris上运行Kmean聚类分析，将聚类结果保存在kc中。在

kmean函数中，将需要生成聚类数设置为3（kmean（newiris，3））

（3）创建一个连续表,在三个聚类中分别统计各种花出现的次数-table

（4）根据最后的聚类结果画出散点图，数据为结果集中的列\"\"和\"\"，颜色为用

1，2，3表示的缺省颜色

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文