您好,欢迎来到飒榕旅游知识分享网。
搜索
您的当前位置:首页聚类分析实验指导书

聚类分析实验指导书

来源:飒榕旅游知识分享网


《数据挖掘》

实 验 报 告

院 (部): 管理工程学院 专 业:信息管理与信息系统 实验项目: 聚类分析实验 班 级: 信管112 姓 名: 李朝阳 学 号: 02

聚类分析实验指导书

实验目的:

1熟悉R语言的相关对象与函数的用法 2掌握利用R进行聚类分析的基本步骤 实验内容:

说明:本实验采用iris数据集,下面中的数据集如无上下文说明,即是指iris

iris以鸢尾花的特征作为数据来源,数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性,是在数据挖掘、数据分类中非常常用的测试集、训练集。

四个属性分别为:花萼长度、花萼宽带、花瓣长度、花瓣宽度

三类分别为:setosa, versicolor, virginica(山鸢尾、变色鸢尾和维吉尼亚鸢尾)

1对数据集进行初步的统计与分析 (1) 数据集的维度-dim

(2) 数据集中的列名-names

(3) 数据集的内部结构-str

(4) 数据集的属性-attributes

(5) 查看数据集的前五条数据情况

(6) 查看数据集中属性前10行数据

(7) 显示数据集中每个变量的分布情况-summary

(8) 数据集列Species中各个值出现频次

(9) 根据列Species画出饼图-pie

(10) 算出列的所有值的方差-var

(11) 算出列iris$和iris$的协方差-cov

(12) 算出列iris$和iris$的相关系数-cor

(13) 画出列iris$分布柱状图

(14) 画出列iris$的密度函数图

(15) 画出列iris$和iris$的散点图?

(16) 绘出矩阵各列的散布图-plot

2使用knn包进行Kmean聚类分析

(1) 将数据集进行备份newiris<-iris,将列newiris$Species置为空

newiris$Species<-NULL,将此数据集作为测试数据集

(2) 在数据集newiris上运行Kmean聚类分析, 将聚类结果保存在kc中。在

kmean函数中,将需要生成聚类数设置为3(kmean(newiris,3))

(3) 创建一个连续表,在三个聚类中分别统计各种花出现的次数-table

(4) 根据最后的聚类结果画出散点图,数据为结果集中的列\"\"和\"\",颜色为用

1,2,3表示的缺省颜色

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sarr.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务