搜索
您的当前位置:首页关于两步聚类分析方法的理论和应用研究综述

关于两步聚类分析方法的理论和应用研究综述

来源:飒榕旅游知识分享网


关于两步聚类分析方法的理论和应用研究综述

关于两步聚类分析方法的理论和应用研究综述

摘要:两步聚类分析方法是近年来才发展起来的聚类方法的一种,它主要用于处理解决海量数据,复杂类别结构时的聚类分析问题,尤其是连续变量和离散变量的混合数据。它分为两大步骤,包括预聚类和正式聚类。在实践中主要解决群体划分、用户或消费者行为细分等问题。但是目前在国内,由于该方法使用范围较小,且缺乏较为详细的介绍,本文就该方法的理论和应用方面作一具体的介绍。

关键字:两步聚类分析方法 分层聚类 市场细分 BIC准则

一、引言

聚类分析是依照研究对象的个体特征,对其进行分类的多元统计分析方法。 具体说来就是,将一批样本或变量的诸多特征按照在性质上的亲疏程度,在没有先验知识的情况下进行自动分类,产生多个分类结果。

在聚类分析中,我们常用的聚类方法有快速聚类和层次聚类。其中层次聚类容易受到极值的影响,并且计算复杂速度慢不适合大样本聚类;

快速聚类虽然速度快,但是其分类指标要求是定距变量,而实际研究中,有很多的定类变量,如性别、学历、职业、重复购买的可能性等多个与研究目的紧密相关的指标无法直接参与运算,而大大限制了它的使用范围。

在此情况下,两步聚类法作为一种较为综合的聚类方法,并能解决上述问题,成为近几年比较常用的方法之一。法与其他传统的聚类技术有显著的区别,它拥有如下三个有利特征:1、能用于处理基于分类变量和连续变量的聚类问题;2、能自动选择聚类数;3、能高效处理大规模数据量的文件。 二、基本原理

两步聚类分析法采用似然距离度量来处理离散变量和连续变量。并且,模型中的每项连续变量都假设为正态分布状态,每项离散变量都假设为多项分布状态。在这种假定下,两步聚类按照两个步骤完成聚类。首先,通过构建和修改聚类特征树对记录进行初步归类;然后,对这些初步分类的结果再次进行聚类,由于此时的预聚类的数量要远远小于原始数据的数量,在这一阶段使用传统的聚类方法就可以处理了。

其中,第一个步骤叫预聚类过程,它针对每一个记录,都要从根开始进入聚类特征数,并依照节点中条目信息的指引找到最接近的子节点,直到到达叶子节点为止。如果这一纪录与叶子节点中的距离小于临界值,那么它进入该子节点,并且子节点的聚类特征得到更新,反之,该纪录会重新生成一个新的叶子节点。如果这时子节点的数目已经大于指定的最大聚类数量,则聚类特征树会通过调整距离临界值的方式重新构建。当所有的记录通过上面的方式进入聚类特征树,预聚类过程也就结束了,子节点的数量就是预聚类数量。

第二个步骤叫正式聚类过程,利用层次聚类方法对聚类特征树上的每个叶结点进行组合。采用层次聚类方法可以产生一组不同聚类数的聚类方案。然后,根据聚类准则,贝叶斯 (BIC)或者Akaike(AIC)准则来对各种聚类方案进行比较选择,选定最佳聚类方案。

在这两个步骤中都采用了传统的距离测度的方法,主要有欧式距离和对数似然距离。欧氏距离主要针对连续变量,它的计算公式为:

dij= (x∑k=1pikxjk)2

其中设第i和 j 个样品的观测值分别为

xixi1,xi2,,xip,xj=(xj1,xj2,,xjp)′。

对数似然距离能处理连续变量和离散变量,计dis=εi+εsεi,s算似然对数时连续变量需要满足正态分布,离散变量满足多项式分布,而且它假定变量之间彼此独立。它的计算公式为:

∧2∧21log(σij+σj) 其中,εi=ni∑j=12pqmjπ∑∑j=1l=1∧ijllog(πijl)

∧2∧21εs=ns∑log(σsj+σj)j=12pπ∑∑j=1l=1qmj∧sjllog(πsjl)∧i,sni,sqmj22p1log(i,sjj)j12j1l1i,sjllog(i,sjl) i,s分别表示分类i和分类s,i,s表示分类i和分类s合并形成的类,j表示第j个观测样本,l表示样本观测值中离散变量的类别,表示对应样本观测值中连续变量的方差的极大似然估计值,对应样本观测值中离散变量的属性值概率的极大似然估计值。

22

在这个过程中,通过贝叶斯 (BIC)或者Akaike(AIC)准则,计算不同聚类类别的BIC或AIC的值,以及类间最短距离的变化,从而来选择最优的聚类类别数。一般来说,BIC值或AIC值越小表示该聚类模型越好,即相应聚类数越优。假设聚类数为k,则BIC和AIC的计算公式如下:

BICk2vrklog(N)

v1kkAICk2vrk

v1ak(lk1) rkk2kk1b其中,v表示第v个聚类类别,k表示聚类过

a程中使用的连续变量的总数,k表示聚类过程中

b使用的离散变量的总数,l第k个离散变量的编

k号。

三、实证研究

为了更好地展示两步聚类分析方法在实际中的应用,特别是针对含有连续变量和离散变量的混合数据,我们搜集相关数据,来研究我国东部地区工业发展情况的类别划分、区域布局。 数据来源于中经网统计数据库,选取的对象为

北京市、天津市、河北省、辽宁省、上海市、江苏省、浙江省、福建省、山东省、广东省、广西壮族自治区等我国东部地区11个省、直辖市、自治区, 选取指标为2008年这些地区的生产总值、工业企业单位数、工业总产值、工业企业资产合计、企业所有者权益、工业企业全部从业人员年平均人数等,考虑到两步聚类分析的条件(各个连续性变量间独立分布,分类变量问也为独立分布),通过初步对这些指标的聚类和相关分析并结合专业知识,最后确定将工业企业单位数、工业总产值、工业企业资产合计、企业所有者权益、工业企业全部从业人员年平均人数等作为连续变量,将地区生产总值作为分类变量(又分为地区生产总值在一万亿以下、一万亿至两万亿、两万亿以上三类,这里选择一万亿、两万亿为界,主要是考虑到东部地区该指标的均数分布以及两步聚类模型达到最优的情况)进入模型进行智能聚类分析。数据的处理和分析在SPSS 17.0中完成。

(1)最优聚类数。首先比较BIC或AIC计算的结果,确定最佳聚类。以BIC为例,结果见表1:

表1 各种聚类结果的BIC值

聚类BICBICBIC变距离

化率 测量

-13.963 18.302 26.735 27.858 27.912 28.263 28.319 28.595 28.639 28.725 1.000 -1.311 -1.915 -1.995 -1.999 -2.024 -2.028 -2.048 -2.051 -2.057 . 数目 标准 变

1 2 3 4 5 6 7 8 9 10 11 87.136 73.173 91.475 118.210 146.068 173.980 202.243 230.562 259.157 287.797 316.522 4.081 5.136 2.224 1.063 1.687 1.122 2.535 1.330 2.746

一般来说,BIC值越小表示该聚类模型越好,即相应聚类数越优。BIC将随着聚类数的增加而持续减少,但是由此而来的聚类方案更优化所带来的额外价值却无法抵消由于聚类数的增加而带来的麻烦。在这种状况下,要权衡BIC的变化和距离测量的变化来决定最优的聚类方案。一个好的方案,BIC变化率(Ratio of BIC Changes)和距离测量比(Ratio of Distance Measures)的值都要求较大。从上面表1中,可以得到在本数据中, 最佳方案是分2个类。 (2)聚类结果和描述。

表2 聚类分布表

地占总

区数

聚类类别 1 2

总 计 7 4 11 体比例

63.6% 36.4% 100%

聚类分布表(表2)显示了每个类的频度。结合各地GDP发展水平,将东部地区工业发展水平分为两类,其中归入第1类的地区有7个,分别是北京市、天津市、河北省、辽宁省、上海市、福建省、广西壮族自治区,归入第2类的地区有4个,分别是江苏省、山东省、浙江省、广东省。

表3 连续变量的均值与方差

工业企业单位数

(个) 工业总产值(当年价格,亿元) 工业企业资产合计(亿元) 企业所有者权益

(亿元) 工业企业全部从业人员年平均人数(万人)

均值 方差 均值 方差 均值 方差 均值 方差 均值 方差

聚类类别1 12987.0000 6413.67113 16731.6957 7620.12367 15268.9529 6209.87500 6700.5114 3034.34374 248.3214 119.59516

聚类类别2

54878.5000

总体 28220.2727

9722.39595 22354.86194 59253.4800

32194.1627

12438.88962 23270.19003 42211.8400

25066.3664

5863.64753 14772.66603 17629.2750 2903.29263 1081.1725 299.94966

10674.6073 6201.24547 551.1764 460.58211

由表3可以看出每一类地区的五个连续型变量的平均值和标准方差,由此可以看出,第一类各个指标平均水平与第二类各个指标平均水平

有明显差距。在spss输出结果中,还给出了每个连续变量均值的置信区间在两类之间的对比图,从中我们也可以比较每个变量在两个类别的均值分布情况。

表4 离散变量在各类的频数统计

聚类类别1 聚类类别2 总体

一万亿以下 频数 2 0 2

百分比 100.0%

.0% 100.0%

一万亿至两万亿 频数 5 0 5

百分比 100.0%

.0% 100.0%

两万亿以上

百分比 .0% 100.0% 100.0%

0 4 4

频数 由表4可以看出,聚类类别1由地区生产总值一万亿以下、一万亿至两万亿组成的,聚类类别2由两万亿以上组成的,由此可见,本文中两步聚类分析法很有效地对样本数据进行了聚类,所得2个聚类符合实际类别情况。

(3)变量重要性。对于每一个聚类,SPSS都可以列出各项变量对该聚类重要性的图表(如下图1),各项变量沿Y轴以重要性递减排列。

图1 两类的属性重要性

图1左边是聚类类别1的变量重要性图,可以看出工业企业全部从业人数是最重要的,右边是聚类类别2的变量重要性图,可以看出工业企业资产合计是最重要的。这些变量有的指向正方向(在t统计量的度量下),有的指向负方向。指向负方向意味着它小于平均数,指向正方向意味着它大于平均数。

通过上面的分析,我们可知东部地区中江苏省、山东省、浙江省、广东省作为地区生产总值较高的四个省份,同时工业发展情况也不错,是名副其实的“工业大省”,其他地区由于其自身经济发展水平、地理位置、行政职责、发展定位等各方面原因,在工业发展方面落后于上述地区。对于这些地区来说,根据其未来发展规划,可以为其战略调整做出借鉴。

通过对上面对两步聚类分析法理论与实证研究的综述,我们可以看出,该聚类方法依附于传统的聚类方法的基础上,进行了拓展,在解决含有连续变量和离散变量的混合数据上具有很大的优势,并通过结合离散变量变现出来的研究对象的属性,定性与定量分析更好地对研究对象进行分类,克服了传统聚类方法仅仅从数据上进行分类的不足。随着近几年的发展,在市场细分、用户定位、区域研究等方面上得到了充分的应用。另外,通过判定AIC或者BIC的大小和类别之间最短距离的变化情况,两步聚类能够提供最优的类别数,克服了以往聚类类别确定缺乏合适的检验标准,往往只能依靠研究人员的经验和关键指标在不同类别上的显著性检验来确定的不足。

参考文献:

1. 张文颖 施久玉 基于聚类分析的当代大学生学习心理研究[期刊论文]-黑龙江高教研究 2009(4)

2. 黄钟颖 两步聚类分析法在汽车市场研究中的应用[期刊论文]-综合管理2008(9)

3. 何寒青 朱敏洁 缪凡 童峰 苏理 陈坤 浙江

省医疗资源分布状况的聚类分析研究[期刊论文]- 中华医院管理杂志 2006(3)

4. 方 茜 基于结合分析结果的消费者细分[期刊论文]-市场研究 2005(7) 5. 黄国安 两步聚类(Two-Step Cluster)在市场细分领域的尝试

6. 吴喜之 统计学:从数据到结论(第2版)中国统计出版社 2006年

7. 于秀林 任雪松 多元统计分析 中国统计出版社 1998年

因篇幅问题不能全部显示,请点此查看更多更全内容

Top