基于聚类分析和因子分析的学生成绩分析模型 吴敏 437100) (咸宁学院数学与统计学院 湖北 成宁摘 要:采用SPSS软件,对成宁学院数学与统计学院2007级统计学专业的学生成绩进行分析。首先 对学生的成绩进行因子分析.根据因子得分矩阵排序.最后再根据因子得分矩阵进行聚类分析 分析的结 果说明.对该专业学生的综合评价主要考察学生的数学基础、统计专业、数学专业、身体素质、经济等方 面,也可以通过这几个因子分析学生的薄弱所在,为他们在学习方法上提供改进建议,同时可根据聚类的 结果为学生找工作、考研提供可行性建议 关键词:因子分析;聚类分析;学生成绩;学生排序;学生评价 中图分类号:G645 文献标识码:A 学生的考试成绩一直是直接评价 的每个聚类内紧凑,类间独立。 育III、体育IV进行规纳为一个变量,取 名为体育.归纳的方法均为取平均值作 为变量的值.另外因为计算机基础.大 学语文,数学模型,VI语I,口语II,这几 科实际上课时要求不严.考试的成绩很 难反映学生的真实情况.为避免影响本 文分析的结果.未加入这些变量进行分 析。 运用Spss13.0对原始数据标准化. 建立成绩指标之间的相关系数矩阵R. 学生学业的重要标准.也是评价学生综 合素质的一个主要指标 综合分析高等 学校学生的学习成绩.掌握学生的学习 动态.对培养学生成才至关重要。应用 研究分析普通高等学校学生成绩.得出 一2实例分析 本文的数据来源于咸宁学院数学 与统计学院2007级统计学专业的48 真实性、权威性、可操作性,通过分析使 得到的结果具有现实意义.能反映现 状 在具体的分析中涉及到43个原始 因子分析和聚类分析结合软件Spssl3.0 名学生各年各科的考试成绩.数据具有 些有意义的结论.并以此可作为培养 学生成才的重要依据 1因子分析和K—means聚类 因子分析是将多个变量综合为少 变量:体育I、计算机基础、大学英语I、 法基)、解析几何、高等代数I、数学分析 要、大学英语II、C语言程序设计、高等 代数II、数学分析II、体育III、大学语 文、英语口语II、马克思主义基本原理 tlett 思想道德修养与法律基础(简称思修与 并对相关系数矩阵进行KMO和Bar检验.得到KMO值为0.791>0.6.Bartlett 量可以进行因子分析 应用主成分提取 数几个因子以再现原始变量与因子之 I、体育II、英语口语I、中国近现代史纲 检验的P值为0.000<0.05.说明成绩变 间的相关关系。它的应用有两个方面: 一是寻求基本结构.简化观测系统.将 法和具有Kaiser标准化的正交旋转法 得到方差解释矩阵表.其中前6个特征 具有复杂的对象综合为少数几个因子. 以再现原始变量与因子之间的内在联 (简称马原)、大学英语III、数学分析II— 值>1.且它们的累积因子贡献率达到 系:二是用于分类.将n个变量进行分 类 本文就是用于第二个方面.对影响 学生成绩的各个科目进行分类 k—means算法.也被称为k一平均或 k一均值.是一种得到最广泛使用的聚类 算法 它是将各个聚类子集内的所有数 I、概率论、西方经济学、体育IV、大学英 语IV、毛泽东思想、邓小平理论和“三个 代表”重要思想概论(简称毛邓三)、数 70.17%.可以代表总体70.17%的信息. 由于本文的样本容量很大.当累积因子 贡献率大于70%时足以代表总体的大 学模型、数理统计、实变函数、常微分方 程、复变函数、随机过程、抽样调查、计 量经济学、经济统计、回归分析、运筹 学、时间序列、多元分析、市场预测与分 部分信息.因此提取前6个特征值建立 因子载荷阵.并将因子载荷阵实行方差 最大正交旋转.得出:factorl以因子载 荷>0.48为标准.factor2以因子载荷> 据样本的均值作为该聚类的代表点.同 一聚类中的对象相似度较高:而不同聚 析、统计软件、非参数统计、实验设计、 0.45为标准.factor3以因子载荷>0.59 经济统计软件 其中可把思修与法基.中国近现代 变量,取名为政史,把大学英语I.大学 英语II.大学英语III进行规纳为一个 为标准.factor4以因子载荷>0.53为标 准.factor5以因子载荷>0.8为标准.fac— 纳于表1中 类中的对象相似度较小 聚类相似度是 利用各聚类中对象的均值所获得一个 “中心对象”(引力中心)来进行计算的 算法的主要思想是通过迭代过程把数 据集划分为不同的类别.使得评价聚类 性能的准则函数达到最优.从而使生成 史纲要,毛邓三.马原进行归纳为一个 tor6以因子载荷>0.5为标准.将结果归 从表1可以看出:影响fac1or1的主 变量,取名为英语,将体育I、体育II、体 要是数学基础课.它反映的是数学的基 收稿日期:2012—03—03 126 科技创业月刊2012年第5期 基于聚类分析和因子分析的学生成绩分析模型 表1因子分析表 通过聚类分析的方法.把48名学 生分成四类.可以根据分类的结果对大 学生的就业进行具体指导 第一类学生 数学统计方面能力较强.但是数学基础 稍差.建议多补习数学基础知识:第二 类学生在具体的统计方法原理的操作 应用上有较大优势.对统计的思想原理 掌握较好.他们适合进一步研究统计. 建议他们考统计方面的研究生:第三类 学生虽然数学统计方面较差.但在非理 础能力:factor2主要支配的是统计学专 人数的22.9%。中等的人有16人.占总 工方面的知识扎实.建议他们从事一些 业学生学了一定的数学基础课后向统 人数的33.33%.合格的人有9人.占总 非理工类的职业:第四类学生在统计应 计方面发展的专业课程.它反映的是统 人数的18.7% 为了方便比较两种不同 用方面较好.同时综合能力较好.建议 计专业方面的能力:factor3主要体现学 方法之间的学生综合成绩排序.对数据 他们可以直接去从事统计方面的工 生学习中的一些非理工类学科方面的 做以下简单处理 作。 能力.即其它方面的能力:fac:tot4主要 从表2看出优秀学生的排名按两 种方法所得的结果基本是一样的.只有 3结论 反映了学生进一步学习数学专业方面 的能力.表现为数学专业的能力.其中 按传统排名的多了A9.良好的学生11 与传统评分标准相比.因子分析的 多元分析和数理统计与数学专业方面 人中有8人是一样的.占11人中的比 方法更注重学生在不同能力上的差异. 联系比较紧密.所以分在因子4中:fac— 例为73%.中等的学生中有12人.占16 可以客观地了解学生在各方面的掌握 tot5反映的是学生身体方面的能力: 人中的75%.合格的学生有8人是一样 程度.有利于发觉学生的潜力 factor6反映的是学生经济方面的能力 的.占9人中的89%.可以看出按因子 可以用数学基础.统计专业.数学 取这6个因子的得分矩阵.根据因子得 得分矩阵把学生进行排名与按传统方 专业,身体素质.经济方面。其它方面这 分矩阵表对学生进行排序.由于前4个 法排名基本一样 六个因子来代表众多科目.学生也可以 因子代表的科目足够多.而后2个因子 进一步把各个学生的因子得分按 根据这几个因子背后所代表的因素更 本身每个只代表一个因子.所含的信息 顺序用SPSS做K—means聚类分析.聚 好的掌握自己的学习动态 同时在根据 比较少.所以用前4个的因子得分来评 类后输出的最终聚类中心表如表3所 因子得分得到的聚类分析中.可以看出 价学生的考试成绩.排序方法为按前4 刁 不同学生的各个方面的不同能力.为学 个因子得分的平均值大小来排.对学生 排序后再与传统方法进行对比 表3最终聚类中心表 评价学生在校成绩的传统方法是 利用以下公式: 课程成绩 课程学分/课程的总学 分数 用这个公式将咸宁学院07数统专 业的学生成绩在Excel软件中进行了计 算并排序 得出优秀的人有12人.占总 人数的25%.良好的的人有11人.占总 生以后的就业和发展提供一定的依据。 表2学生排序结果表 参考文献 1 高慧璇.实用统计方法与SAS系统『M]. 北京大学出版社.2Oo9 2何晓群.多元统计分析『M1.北京:中国人 民大学出版社.2004 3田宏.于晓秋.因子分析与聚类分析在学 生成绩综合评价中的应用[J].牡丹江师 范学院学报(自然科学版),2009(3) (责任编辑梁工) PIONEERING WITH SCIENCE&TECHNOLOGY MONTHLY NO.5 201 2 127