不确定GM-CFSFDP聚类算法在滑坡危险性预测中的应用

来源：飒榕旅游知识分享网

计算机系统应用ＩＳＳＮ　１００３．－３２５４．，ＣＯＤＥＮ　ＣＳＡＯＢＮ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍｓ＆Ａｐｐｌｉｃａｔｉｏｎｓ，２０１８，２７（６）：１９５－２０１［ｄｏｉ：１０．１５８８ｓ／ｊ．ｃｎｋ￣．ｃｓａ，，００６３８６】１　＠中国科学院软件研究所版权所有．　Ｅ－ｍａｉｌ：ｃｓａ＠ｉｉｓｃａｓ．ａｃ．ｃｎ　ｈｔｔｐ：／／ｗｗｗ．Ｃ－ｓ－ａ．ｏｒｇ．ｃｎ　Ｔｅｌ：＋８６．１０．６２６６１０４ｌ　不确定ＧＭ．ＣＦＳＦＤＰ聚类算法在滑坡危险性　预测中的应用①　胡健　，覃慧　。毛伊敏　（江西理工大学应用科学学院，赣州３４１０００）　ｒ江西理工大学信息工程学院，赣州３４１０００）　通讯作者：覃慧，Ｅ－ｍａｉｌ：１４０６０５４９６６＠ｑｑ．ｃｏｒｎ　摘要：针对滑坡危险性预测中降雨等不确定诱发因素难以有效处理，ＣＦＳＦＤＰ算法需要人工尝试设置密度阈值以　及对大规模数据集无法进行准确聚类等问题，为了提高滑坡危险性预测准确度，提出一种基于网格与类合并的不确　定ＣＦＳＦＤＰ（简称不确定ＧＭ．ＣＦＳＦＤＰ＇）聚类算法．该算法首先引入不确定数据处理方法，设计了　．＾纪距离公式，有　效刻画降雨不确定因素；其次通过网格划分的思想把大规模数据集划分到多个网格空间中，实现大规模数据有效编　码；计算网格平均密度，建立网格密度阈值分布模型，动态获得网格密度阈值；最后利用层次聚类思想对关联性较高　的类进行合并，构建不确定ＧＭ．ＣＦＳＦＤＰ算法模型，在延安宝塔区进行滑坡实例验证．实验结果表明不确定ＧＭ．　ＣＦＳＦＤＰ聚类算法获得较高的预测精度，从而验证了该算法在滑坡危险性预测中的可行性和先进性．　关键词：不确定数据：滑坡；ＣＦＳＦＤＰ聚类算法；危险性预测　引用格式：胡健，覃慧，毛伊敏．不确定ＧＭ．．ＣＦＳＦＤＰ聚类算法在滑坡危险性预测中的应用．计算机系统应用，．２０１８，２７（６）：１９５－２０１．ｈｔｔｐ：／／ｗｗｗ－ｃ．Ｓ—　ａ．ｏｒｇ．ｃｒｇｌＯ０３－．３２５４／６３８６．ｈｔｍｌ　Ａｐｐｌｉｃａｔｉｏｎ　ｏｆ　Ｕｎｃｅｒｔａｉｎ　ＧＭ－ＣＦＳＦＤＰ　Ｃｌｕｓｔｅｒｉｎｇ　Ａｌｇｏｒｉｔｈｍ　ｉｎ　Ｌａｎｄｓｌｉｄｅ　Ｈａｚａｒｄ　Ｐｒｅｄｉｃｔｉｏｎ　ＨＵ　Ｊｉａｎ　，ＱｒＮ　Ｈｕｉ＂　，ＭＡＯ　Ｙｉ．．Ｍｉｎ　＇　（Ｃｏｌｌａｇｅ　ｏｆＡｐｐｌｉｅｄ　Ｓｃｉｅｎｃｅ，Ｊｉａｎｇｘｉ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆＳｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｇａｎｚｈｏｕ　３４１０００，Ｃｈｉｎａ）　（Ｆａｃｕｌｙ　ｔｏｆＩｎｆｏｒｍａｔｉｏｎ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｊｉｎｇｘｉａ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆＳｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｇａｎｚｈｏｕ　３４１０００，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｓｉｎｃｅ　ｔｈｅ　ｒａｉｎｆａｌｌ　ａｎｄ　ｏｔｈｅｒ　ｕｎｃｅｒｔａｉｎｔｉｅｓ　ａｒｅ　ｄｉｉｃｕｌｆｔ　ｔｏ　ｅｆｆｅｃｔｉｖｅｌｙ　ｄｅａｌ　ｗｉｈ　ｉｎ　ｌａｎｄｓｉｄｅ　ｈａｚａｒｄ　ｐｒｅｄｉｃｔｉｔｏｎ，ａｓ　ｗｅｌｌ　ａｓ　ｔｈｅ　ｄｅｎｓｉｔｙ　ｔｈｒｅｓｈｏｌｄ　ｉｎ　ＣＦＳＦＤＰ　ａｌｇｏｒｉｔｈｍ　ｉｓ　ｒｅｑｕｉｒｅｄ　ｔｏ　ｂｅ　ｓｅｔ　ｍａｎｕａｌｌｙ　ａｎｄ　ｉｔｓ　ｌｏｗ　ａｃｃｕｒａｃｙ　ｆｏｒ　ｌａｒｇｅ－－ｓｃａｌｅ　ｄａｔａ　ｃｌｕｓｔｅｒｉｎｇ，ｉｎ　ｏｒｄｅｒ　ｔｏ　ｉｍｐｒｏｖｅ　ｔｈｅ　ｐｒｅｄｉｃｔｉｏｎ　ａｃｃｕｒａｃｙ，ｔｈｉｓ　ｓｔｕｄｙ　ｐｒｏｐｏｓｅｄ　ａｎ　ｕｎｃｅｒｔａｉｎ　ＣＦＳＦＤＰ　ａｌｇｏｒｉｔｈｍ　ｂａｓｅｄ　ｏｎ　Ｇｒｉｄ　ａｎｄ　Ｍｅｒｇｉｎｇ　ｃｌｕｓｔｅｒｓ（＇ｕｎｃｅｒｔａｉｎ　ＧＭ·．ＣＦＳＦＤＰ）．Ｆｉｒｓｔｌｙ，ｔｈｅ　ｄｉｓｔａｎｃｅ　ｆｏｒｍｕｌａ　ｂａｓｅｄ　ｏｎ　ｕｎｃｅｒｔａｉｎ　ｄａｔａ　ｐｒｏｃｅｓｓｉｎｇ　．ｍｅｔｈｏｄ　ｉｓ　ｄｅｓｉｇｎｅｄ　ｔｏ　ｅｆｆｅｃｔｉｖｅｌｙ　ｄｅｓｃｒｉｂｅ　ｔｈｅ　ｕｎｃｅｒｔａｉｎ　ｆａｃｔｏｒｓ　ｏｆ　ｒａｉｎｆａｌ１．Ｓｅｃｏｎｄｌｙ．ｔｈｅ　ｉｄｅａ　ｏｆ　ｍｅｓｈｉｎｇ　ｉｓ　ｕｓｅｄ　ｔｏ　．ｅｆｆｅｃｔｉｖｅｌｙ　ｅｎｃｏｄｅ　ｔｈｅ　ｌａｒｇｅ－ｓｃａｌｅ　ｄａｔａ　ｂｙ　ｄｉｖｉｄｉｎｇ　ｉｔ　ｉｎｔｏ　ｍｕｌｔｉｐｌｅ　ｇｒｉｄ　ｓｐａｃｅｓ．Ｔｈｅ　ａｖｅｒａｇｅ　ｄｅｎｓｉｔｙ　ｏｆ　ｔｈｅ　ｍｅｓｈ　ｉｓ　ｃａｌｃｕｌａｔｅｄ　ｔｏ　ｅｓｔａｂｌｉｓｈ　ｔｈｅ　ｇｒｉｄ　ｄｅｎｓｉｔｙ　ｔｈｒｅｓｈｏｌｄ　ｄｉｓｔｉｒｂｕｔｉｏｎ　ｍｏｄｅｌ　ａｎｄ　ｏｂｔａｉｎ　ｔｈｅ　ｇｒｉｄ　ｄｅｎｓｉｙ　ｔｔｈｒｅｓｈｏｌｄ　ｄｙｎａｍｉｃａｌｌｙ．　Ｆｉｎａｌｌｙ，ｔｈｅ　ｈｉｅｒａｒｃｈｉｃａｌ　ｃｌｕｓｔｅｒｉｎｇ　ｉｄｅａ　ｉｓ　ｕｓｅｄ　ｔｏ　ｍｅｒｇｅ　ｔｈｅ　ｈｉｇｈｅｒ　ａｓｓｏｃｉａｔｉｏｎ　ｃｌａｓｓ　ａｎｄ　ｔｈｅ　ｕｎｃｅｒｔａｉｎ　ＧＭ·．ＣＦＳＦＤＰ　ｌｇｏｒｉｔｈｍ　ｍｏｄｅｌ　ｉｓ　ｅｓｔａｂｄｉｓｈｅｄ．Ｔｈｅ　ｅｘｐｅｒａｉｍｅｎｔｓ　ｃｏｎｄｕｃｔｅｄ　ｉｎ　ｔｈｅ　Ｂａｏｔａ　ｄｉｓｔｒｉｃｔ　ｏｆ　Ｙａｎ’ａｎ　ｓｈｏｗ　ｔｈｔａｔ　ｔｈｅ　ｕｎｃｅｒｔａｉｎ　ＧＭ－　ＣＦＳＦＤＰ　ｃｌｕｓｔｅｒｉｎｇ　ｌｇｏｒｉａｔｈｍ　ａｃｈｉｅｖｅｓ　ａ　ｈｉｇｈｅｒ　ｐｒｅｄｉｃｔｉｏｎ　ａｃｃｕｒａｃｙ　ａｎｄ　ｐｒｏｖｅｓ　ｈｅ　ｔｆｅａｓｉｂｉｌｉｙ　ｔａｎｄ　ａｄｖａｎｃｅｍｅｎｔ　ｏｆ　ｔｈｅ　ｌｇｏｒａｉｔｈｍ　ｉｎ　ｌａｎｄｓｌｉｄｅ　ｈａｚａｒｄ　ｐｒｅｄｉｃｔｉｏｎ．　Ｋｅｙ　ｗｏｒｄｓ：ｕｎｃｅｒｔａｉｎ　ｄａｔａ；ｌａｎｄｓｌｉｄｅ；ＣＦＳＦＤＰ　ｃｌｕｓｔｅｒｉｎｇ　ａｌｇｏｒｉｔｈｍ；ｈａｚａｒｄ　ｐｒｅｄｉｃｔｉｏｎ　①基金项目：国家重点自然基金（４ｌ５３０６４Ｏ）；国家自然科学基金（４１５６２Ｏ１９，４１３６２０１５）；江西省自然科学基金（２Ｏ１６１ＢＡＢ２０３０９３）；江西省教育厅科技项　目Ｉ（ＧＪＪ１５１５３１）；江西省社科规划项目（１３ＹＤ０２０）　收稿时间：２０１％．１Ｏ－０２；修改时间：２０１７．．１Ｏ－２４；采用时间：２０１％．１１－０６；ｃｓａ在线出版时间：２０１８－．０５·－２８　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ研究开发１　９５　计算机系统应用　ｈｔｔｐ　｜｜、　｝　．Ｃ—Ｓ—ａ．ｏｒｇ．ｃｎ　２０１８年第２７卷第６期　引言　滑坡灾害严重危害人类的生命财产安全，并对环　境、资源构成严重威胁【１］，给人们的生活带来了巨大影　响．滑坡的发生伴随着多种因素，其中降雨是一个重要　的诱发因素之一ｆ２】．由于降雨具有不确定性和随机性，　无法对其进行有效刻画，因此给滑坡预测的准确性带　来了一定的挑战．　聚类技术能够根据数据对象之间的较高相似度、　聚簇之间的较高分离度实现数据对象的有效划分，因　而被广泛应用在滑坡灾害预测的研究中．张俊等Ｌ３　使用　滑坡面积比与分级面积比曲线对指标因子分级，选取　７个致灾因子作为滑坡易发性的评价指标，采用Ｋ．　ｍｅａｎｓ聚类算法对三峡库万州区滑坡易发性评价体系　进行分级，实验表明滑坡灾害易发性评价体系预测精　度较高．文建华等【４】提出同伦模糊ｃ一均值聚类算法，以　三峡库岸为研究区对边坡的稳定性进行分类，研究表　明同伦模糊Ｃ．均值聚类算法是一种较好的边坡稳定性　分级聚类分析方法．孙树林等【５】以南京地区滑坡作为研　究对象，提取影响因素并计算其熵值，利用Ｋ．ＰＳＯ方　法生成南京地区滑坡敏感图，并行研究对比表明Ｋ．　ＰＳＯ聚类准确度高，验证了其在滑坡敏感性分析的可　行性．吴亚子　卅采用灰色聚类法，并选取１　１个评价因　子，建立了阿里地区地质灾害危险性的评价模型，结果　表明利用灰色聚类方法对阿里地区公路沿线的危险性　评价精度较高，说明该方法具有一定可行性．传统聚类　技术在滑坡预测应用上取得了一定成果，但是还不能　满足人们的需求，主要是存在以下两个问题：１）传统聚　类算法很难实现对不确定数据降雨量的有效处理；　２）传统聚类方法需要预先设定聚簇数目ｋ值，而在实　际应用中ｋ值难以准确给定，致使对大规模数据集聚　类结果影响较大．针对传统聚类算法预先设定ｋ值问　题，Ｍｉｉｎ．Ｓｈｅｎ等Ｉ　构建一个基于学习的模糊聚类框架，　可自动找到最佳簇的数量，实验结果证明该算法具有　先进性；赵文冲等　】通过对ｋ值的自动获取，提高实验　聚类结果，但难以处理不确定数据．以上两个问题致使　传统聚类算法在滑坡危险性预测中的聚类结果不是很　理想，因此需要一种能够有效处理不确定数据和能够　提升聚类效果的方法，从而提高滑坡危险性预测精度．　快速搜索和发现密度峰值聚类算法（ＣＦＳＦＤＰ）［９］可　自动获得类的个数，能够有效避免聚类数目ｋ的预先　１９６研究开发Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ　设定，算法复杂度相对较低，可对任意形状的数据集进　行聚类且实现简单聚类速度快．但是ＣＦＳＦＤＰ算法无　法有效处理不确定数据，并且需要人工尝试设置密度　阈值以及对大规模数据处理效果不佳，因此文中在传　统ＣＦＳＦＤＰ算法基础上，提出不确定ＧＭ—ＣＦＳＦＤＰ聚　类算法．该算法首先建立不确定数据模型，设计Ｅ．　距离公式，使其能够描述不确定属性之间的相似　度，有效刻画不确定因素降雨；通过网格划分的思想按　照维度将数据集进行网格化，使之能够有效处理大规　模数据：借鉴平均密度思想建立网格密度阈值模型，动　态确定网格密度阈值，避免ＣＦＳＦＤＰ需要人工尝试确　定密度阈值：利用层次聚类思想合并关联性较高的类，　解决大规模滑坡数据集密度分布不均匀的问题，构建　不确定ＧＭ—ＣＦＳＦＤＰ聚类算法滑坡预测模型，以延安　市宝塔区为例进行预测．实例结果证明不确定ＧＭ．　ＣＦＳＦＤＰ算法比ＣＦＳＦＤＰ算法在滑坡危险性预测中聚　类效果更佳，具有可行性．　１不确定ＧＭ．ＣＦＳＦＤＰ算法　１．１不确定数据的模型　假设不确定性数值属性Ａ　其取值在一定范围内，～ｒ　旧　，　ｕ　Ｌ　即Ａｆ『∈［ａｉｊＬ，ａｉｊＲ］，ａｆ『Ｌ＜ａｆ　，其中啦产￣ＮａｉｊＲ分别称为　　Ａｆｆ的左界值和右界值．若Ａｉｊ·ｇ（　）为Ａｆｆ的概率密度函　数，则有：　ｆ￣ａｉｊ　√ｆ　Ａｉｊ·ｇ（ｘ）ｄｘ＝０　一ｏ。　Ａｉｊ·ｇ（ｘ）ｄｘ＝１　Ａｉｊ‘ｇ（ｘ）ｄｘ＝０　１．２不确定数据的处理　传统ＣＦＳＦＤＰ聚类算法能够处理离散型和连续型　数据。但难以对不确定数据进行有效处理．文中结合不　确定数据模型，采用积分形式［１０，１１１考虑范围内点与点之　间的差值，再利用不确定数据的中点和长度，替换左右　界值对距离公式进行重新定义．最后考虑含有离散　型、连续型和不确定型的混合型属性数据，对传统　Ｅｕｃｌｉｄｅａｎ距离进行拓展，得到一种新的描述相似度的　距离　．＾纪距离１公式．　２０１８年第２７卷第６期　ｈｔｔｐ：｝ｆ１　『、　７．Ｃ－Ｓ－ａ．ｏｒｇ．ｃａ　计算机系统应用　定理１．设两个Ｐ维数据对象ａ和ｂ均含有不确定属　性，则口和ｂ的Ｅ－ＭＬ距离ｄｅ—ＭＬ（ａ，６）为：　ｄＥ—ＭＬ（ａ，易）＝　对称性和三角不等性，说明　Ｊｊｌ纪距离具有合理性．　１．３　ＧＭ．ＣＦＳＦＤＰ聚类算法　ＣＦＳＦＤＰ聚类算法ｌ９】可聚类任意形状数据集，并且　能够自动获取类的个数，算法复杂度低，然而仍存在不　足：ａ）算法聚类质量依赖于给定的密度阈值　；ｂ）大规　其中，Ｐ　１　（１）　模数据集存在规模大和密度分布不均匀，算法虽然可　以对数据点按密度值大小进行排序，但聚类效果不够　其中，　（口）＝掣和Ｌ（口）：ａＲ一　分别为不确定数据　ａ＝［ａＬ，ａ尺】的中点和长度．离散型数据和连续型数据经　过归一化处理之后均可看作是特殊的不确定数据，此　时Ｍ（ａ）＝ａ，Ｌ（ａ）＝０，则Ｅ一　距离可处理Ｐ维数据中　包含离散属性、连续属性和不确定属性数据间的距离．　证明：设不确定数据的区间为ａ＝［ａＬ，ａＲ］，　ｂ＝［　，　】，给出如下定义［７】．　Ｘ｛［（　ｃ　Ｌ）］　一［（　）＋ｙ（ｂＲ—ｂＬ］）　ｄｘｄｙ　：‘下ａＬ．４－ａＲｂＬ＋ｂＲ＝ｌ一２　～　）２＋　一ｌ）ｒ　　，３［（Ｉ　—２＋（　）２］　指定Ｄ（ａ，ｂ）＝√Ｄ　（口，６）为不确定数据以和易的距离．　但当ａ＝易的时侯，却存在Ｄ（ａ，ｂ）≠０，由定义易知，对于　任意的不确定数ａ和ｂ恒有Ｄ（ａ，ｂ）＞０．对公式（２）进行　修正如下：　ｄＭＬ　（ａ，　）＝ｆＪ－１／２　　“』ｌ　（　）＋．儿（　）】一［　（　）＋ｊ　Ｌ（易）］｝　ｄｘ　＝［Ｍ（口）一Ｍ（　＋＿【１　Ｌ（口）一Ｌ（　（３）　Ｊ，￣ｄＭＬ（ａ，６）＝√　Ｌ　（ａ，６）是口和扫之间的距离，其　中Ｍ（　）和Ｌ（口）分别　的中点和长度，可容易验证条件　ｄＭＬ（ａ，ｂ）＝０甘ａ＝ｂ．　当ａ和ｂ为两个任意不确定Ｐ维数据时，其　Ｅｕｃｌｉｄｅａｎ距离为Ｅ（ａ，ｂ）＝　，结合公式　（３）和传统Ｅｕｃｌｉｄｅａｎ距离公式，得到Ｅ－ＭＬ距离公式　Ｅ一＾ｆＬ　，　）＝　（４）　容易证明公式（１）满足距离定义的条件：非负性、　理想．针对ＣＦＳＦＤＰ聚类算法需人工设置密度阈值、　无法对大规模数据集进行准确聚类问题，设计一种基　于数据空间网格化的ＣＦＳＦＤＰ聚类算法ｆＧＭ—　ＣＦＳＦＤＰ），首先对数据进行数据空间网格化，划分为不　同的网格单元，实现大规模数据的有效编码：其次对密　度阈值　进行动态选择，引入平均密度思想，将网格单　元划分为稠密、中度、稀疏三种状态，根据网格密度　实现动态选择　；最后借鉴层次聚类思想，选取具有相　关度较高的类进行合并，获得聚类结果，ＧＭ．ＣＦＳＦＤＰ　聚类算法设计概念如下．　（１）数据空间网格化　假设存在数据集Ｄ＝ｆＤ１，Ｄ２，…，Ｄｄ｝，采用自项向　下的网格划分方法ｆ】２Ｊ来对数据集进行划分，将其归一　化处理，遍历数据集，获得每个维度的长度ｌｉ，将数据空　间按照维度ｚ　进行划分，获得两部分数据空间，再次　对两个数据空间进行分割。直至数据子空间满足点数　目小于或等于阈值以及最短长度小于２倍密度阈值以，　得到空间集合　．　Ｌ＝｛ｌｉ／ｌｉ＝ｇ（ｄｉ）｝　（５）　ｍ＝ｇｍａ）【（Ｌ）　（６）　Ｕ＝｛ｄｌ，ｄ２，…，　｝　（７）　其中，Ｌ为长度　的集合，ｄ为数据维度，ｉ∈ｄ，函数ｇ为求　出　的长度，　为最长维度，函数ｇ　ａｘ为Ｌ中最大值的编号．　（２）网格密度阈值　采用平均密度公式计算所有网格平均密度阈值【１３’Ｍ］，　获取所有网格单元密度的最大值和最小值，定义网格　密度阈值以，使网格单元分为稠密　≥ｆＭＪｎｐｔＯ、中度　（厂Ｌ。ｗ　＜ｆＭｉｎｐｔ　）、稀疏（ｆｉ＜ｆＬ。　）３种，若　＜，Ｌ。ｗ　说明多数稠密的网格单元成为簇，此时阈值设置　过低需要增加调整，若ｄｃ＞ｆＭｉ　。ｔ　说明部分簇作为中度　或稀疏单元格进行处理，阈值设置过高需要降低调整，　依此保证　的取值范围和准确性．根据网格密度选取　网格所属密度阈值．　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ研究开发１　９７　计算机系统应用　ｈｔＬｐ：ｌｌ￣．Ｃ－Ｓ—ａ．ｏｒｇ．ｃｎ　２０１８年第２７卷第６期　平均密度公式：　∑　Ｓｔｅｐ　１．数据进行归一化处理，获得有效数据集；　Ｓｔｅｐ　２．根据数据空间网格化方法对有效数据集进　ｆａｖ。：　一　（８）　行网格划分，获得对应的数据空间集合；　Ｓｔｅｐ　３．使用平均密度思想和不确定数据处理方式　对数据空间集合的各数据点进行局部密度和距离计算，　（９）　（１０）　网格密度阈值公式：　ｆＭｉ　Ｄｔ　＝（，ａ　。＋ｆｍａｘ）／２　九。ｗ＝（Ａｖ。＋ｆｍｉ　）／２　对网格单元密度进行划分，进而动态确定密度阈值ｄｃ；　Ｓｔｅｐ　４．使用ＣＦＳＦＤＰ算法对网格数据对象进行聚　其中，，ｌ为所有网格单元数目，　为第ｉ个网格单元密度　值，ｆｍ　为最大的网格单元密度，ｆｍｉｎｆ￣最小的网格单元密度．　类，确定聚类中心和初始聚类个数；　Ｓｔｅｐ　５．利用密度阈值　，确定类的核心区域与边　目前在确定阈值的研究中，学者们做了很多贡献，　其中近邻距离曲线旧变化情况来确定密度阈值的方法，　解决了人工设置阈值的不足，计算方法简述为先求出　数据集的第１至第２％×ｌＳＩ（其中　为数据集）近邻距离　曲线，再找到曲线斜率变化明显的曲线，记为第ｒ条曲　线，以取ｉ～　数据点的所有第ｒ条近邻距离的均值．李　宗林等　采用非参数核密度估计理论分析数据的分布　特征来自动确定阈值．两种方法都避免了人工尝试确　定密度阈值的不确定性，对于数据集规模较小时，能得　到明显的效果，但在多数实际问题中数据集规模大，上　述方法确定密度阈值过程更复杂，采用文中提到的阈　值计算方法，复杂度更小，占用内存更少，运行速度更快．　（３）类合并　ＣＦＳＦＤＰ算法无法准确对数据密度分布不均匀的　数据集进行聚类　＂】，原因是当数据集密度分布不均匀　时，算法可能会将一个类划分成两个或多个类，此时需　要进行子类合并．借鉴层次聚类算法思想［１８，１９］，通过对　比密度阈值以，选择相关性较高的类进行合并，从而实　现准确聚类．假设任意两个类Ａ、Ｂ，其对应的网格密　度阈值表示为　Ａ、　Ｂ，类Ａ、Ｂ的边界区域点集　Ａ，　Ｂ，边界区域中的点数为ＩＳＡＩ，ｉＳａｌ，Ｐｉ和　，分别为　ＳＡ，　Ｂ中的数据点，ｄＳＰｉｑｊ为数据点　和ｑＪ之间的距离，　公式如下：　Ｖｐｉ∈ＳＡ，Ｖｑｊ∈ＳＢ　（１１）　ｄ（Ａ，Ｂ）＝ｍｉｎ｛ｄｃＡ，ｄｃＢ｝（１２）　若Ａ、Ｂ满足类间相似度条件，如公式（１３）所示，　则将类Ａ、Ｂ进行合并．　Ｉ　ＩＡ　×ｌ　ｌＳＢ　　一　、Ａ，　’　Ｂ）　（１３）、　　１．４不确定ＧＭ　ＣＦＳＦＤＰ聚类算法设计　不确定ＧＭ．ＣＦＳＦＤＰ聚类算法聚类过程如下：　１９８研究开发Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ　界区域，指定边界区域中最高点密度值作为去除噪声　点的阈值：　Ｓｔｅｐ　６．计算类之间的距离，采用类合并方法，判断　类之间能否合并，若满足合并条件则进行合并，否则返　回Ｓｔｅｐ　５：　Ｓｔｅｐ　７．退出合并操作，输出数据集聚类结果．　２实例研究及结果分析　２．１实例研究　２．１．１数据来源　实验数据来源于西安地质调查中心数据库，采用　ＡＲＣＧＩＳ将延安市宝塔区进行栅格化处理，每个栅格　单元尺寸设计为５　ｍ￣５　ｍ，得到５　６７２　９２２个栅格单元，　每个栅格单元看成一个点，借鉴刘卫明ｆ２　０］的属性提取　方法，获得坡型、坡向、坡高、坡度数据信息，以及岩　土体结构数据、植被覆盖数据、降雨量值．　依据宝塔区的地质环境条件及地质灾害发生机理　和原始数据集中各属性对聚类结果的影响程度选取坡　型、坡向、坡高、坡度、岩土体、植被、降雨作为评　价因子，滑坡危险性等级作为决策因子．其中坡型、植　被、岩土体为离散属性，先将其数值化再进行归一化　处理：坡度、坡高、坡向为连续属性可直接进行归一　化方式处理；降雨为不确定属性，只能确定其大致取值　范围，无法直接用传统方法进行刻画。因此采用文中提　出的不确定数据处理方式进行处理．　２．１．２不确定ＧＭ．ＣＦＳＦＤＰ聚类算法滑坡预测模型的　构建　由延安市宝塔区经过栅格化处理的的５　６７２　９２２个栅格单元，每个栅格单元被看成一个点，这些点　形成的数据集规模大，因此首先采用不确定ＧＭ．　ＣＦＳＦＤＰ聚类算法中的数据空间网格化步骤，通过网　格划分的思想把大规模滑坡数据划分到相应的数据空　２０１８年第２７卷第６期　ｈｔｔｐ：ｌ／ｗｗｗ．ｃ—ｓ—ａ．ｏｒｇ．ｃｎ　计算机系统应用　间中，最后得到数据空间网格单元２８３　３７５个；初始化　设置聚簇数目为空，计算各个网格单元的平均密度。依　越大，表示预测值和观测值的一致性越大，是一种滑坡　危险性预测评价较好的方法，ＫａｐｐａＳ．数定义为：　ｐｐａ－　据密度阈值求解方法动态获得网格密度阈值　，使用　文中不确定数据距离公式　．　距离）计算数据对象　之间的距离；然后使用ＣＦＳＦＤＰ聚类算法对各个滑坡　数据空间网格单元进行聚类，聚类时各个网格单元根　据其合适的　进行聚类，确定初始聚类中心位置和聚　类个数，初始得到聚簇数目为５５８个：对其余非聚类中　心的数据点进行归簇，并利用密度阈值　确定簇边界　Ｐｒ（ａ　）－Ｐｒ（ｅ）　（１４）　∑Ｐｉｉ　Ｐｒ（口）　ｉ＝１　（１５）　∑Ｐｉ＋×Ｐ　∽＝　（１６）　区域，计算两个相邻簇之间的相似度，对所有相邻簇的　相似度进行排序，合并相似度较高的两个簇，直到所有　簇簇之间的相似度不满足合并条件为止，最终得到　４８３个簇，依据簇内具有较高的相似度和簇间具有较高　的分离度特征。预测滑坡危险性等级．　２．１－３滑坡危险性等级划分　滑坡危险性等级是滑坡危险性预测的决策因子，　因此如何正确划分滑坡危险性等级影响着滑坡危险性　预测的精度．聚类算法会把具有相似特征的栅格单元　聚在一个子集中，则子集内具有较高的相似度，文中根　据“具有相似特征的滑坡同时具有相似的滑坡发生趋　势【２ＩＪ”这一特性，利用己知含有降雨信息的２９３个滑坡　观测点的危险性等级，采用直接搜索法和专家评分　定各个区域的危险性等级．首先利用直接搜索法，对评　价单元进行逐一搜索，评价单元若只含有一个确定的　危险性等级单元，则该聚类子集的危险性等级为该单　元的危险性等级，若评价单元含有的各危险性等级单　元不等，则按照少数服从多数原则评定，若未含有确定　危险性等级单元和含有相同数目的不同危险性等级单　元的聚类子集危险性等级则由专家根据经验进行评定，　结合区域调查结果判定滑坡危险性等级从而划分出其　余单元的危险性等级．　２．２实验结果分析与比较　２．２．１实验环境　为了验证ＧＭ．ＣＦＳＦＤＰ聚类算法的有效性以及不　确定数据处理方式能否提高滑坡危险性预测精度，实　验选择Ｗｉｎｄｏｗｓ　７旗舰版操作系统，计算机硬件配置　为Ｉｎｔｅｒ　ｉ５处理器、主频３＿３　ＧＨｚ、８　Ｇ内存，实验数据　通过ＡＲＣＧＩＳ１０．２获取，算法通过ＪＡＶＡ语言实现．　２．２．２评价标准　基于误差矩阵的Ｋａｐｐａ系数精度评价方法能够反　映预测值和真实值的一致性［２引，其范围为［＿１，１］，其值　其中，Ｐｒ（ａ）表示观测和预测一致的数量与所有观测点　的比例，Ｐｒ（ｅ）表示同等级观测总和、预测总和占所有　观测点的比例求和，　为第ｉ类型被正确分类的数目，　Ｐ　为第ｉ类型所在列的数目之和，Ｐ＋ｆ为第ｉ类型所在　行的数目之和．　２．２＿３算法性能分析　为了验证ＧＭ．ＣＦＳＦＤＰ聚类算法的有效性，分别　按照５％、１０％、１５％、２０％的比例对数据空间网格　化后的２　８　３　３　７　５的网格单元进行采样，对比　ＣＦＳＦＤＰ聚类算法和ＧＭ．ＣＦＳＦＤＰ聚类算法的运行时　间。进行多次实验求取实验运行时间均值作为最后的　聚类算法运行时间．两种聚类算法的时间性能分析如　表１所示．　表１　滑坡数据集聚类算法运行时间对比　从表１可得，数据采样比例为５％时，ＣＦＳＦＤＰ算　法的运行时间为１０．２８　ｍｉｎ。ＧＭ—ＣＦＳＦＤＰ算法的运行　时间为９．０２　ｍｉｎ，采样比例为１０％时，二者的运行时间　分别为２８．４５　ｍｉｎ和２６．８　１　ｍｉｎ，采样比例较小时，二者　算法运行时间相差不大，这是因为对于小规模数据的　处理。ＣＦＳＦＤＰ和ＧＭ．ＣＦＳＦＤＰ都能快速的实现聚类　效果．当采样比例增大到１５％时，ＧＭ．ＣＦＳＦＤＰ算法的　运行时间要比ＣＦＳＦＤＰ少６　ｍｉｎ左右，ＧＭ．ＣＦＳＦＤＰ算　法在采样比例为２０％时运行时间明显低于传统　ＣＦＳＦＤＰ聚类算法，这是因为在处理大规模数据时，　ＧＭ．ＣＦＳＦＤＰ算法设计了数据空间网格化思想，能够快　速的实现数据的编码，密度阈值的动态选择实现了聚　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ研究开发１　９９　计算机系统应用　ｈｔｔｐ：ｌｌｗｗｗ．ｃ—ｓ—ａ．ｏｒｇ．ｃｎ　２０１８年第２７卷第６期　类中心选择和聚类个数，避免了需人工设置密度阈值　Ｋａｐｐａ系数值比传统ＣＦＳＦＤＰ聚类算法的较好，原因　是设计了数据空间网格划分理念，实现对大规模数据　和设置聚簇个数带来的问题，类合并解决了数据集密　度分布不均匀的问题，提高了聚类效果．通过整体采样　实验发现，ＧＭ．ＣＦＳＦＤＰ聚类算法的性能要高于　的有效编码，定义不确定数据距离公式，有效的刻画了　不确定属性降雨，网格密度阈值的有效计算方法避免　了人为设置阈值带来的误差，利用层次聚类合并思想　ＣＦＳＦＤＰ聚类算法，当数据规模越大，效果越明显，因　此。ＧＭ．ＣＦＳＦＤＰ聚类算法对于大规模数据而言聚类速　解决了由于大规模数据集密度分布不均匀导致的聚类　度更快，效果更佳，可以作为一种处理滑坡大规模数据　的方法．　２－２．４滑坡预测精度分析与比较　为了验证不确定数据处理方式是否可以提高滑坡　危险性预测精度，比较传统ＣＦＳＦＤＰ聚类算法和不确　定ＧＭ．ＣＦＳＦＤＰ聚类算法在滑坡实验中的预测精度．　传统聚类算法滑坡危险性预测中降雨通常以离散值进　行处理，采用定量法Ｌ２　】将降雨分为六类：小雨，中雨，大　雨，暴雨，大暴雨，特大暴雨，使用传统Ｅｕｃｌｉｄｅａｎ公式　计算两个数据对象之间的距离，构建传统的ＣＦＳＦＤＰ　聚类算法滑坡危险性预测模型．野外勘测获得延安宝　塔区有４２８个滑坡灾害观测点，其中有２９３个观测点　含降雨量信息，所有灾害观测点被栅格化为１３６７个单　元，其中１０３６个单元含降雨信息，剩余３３１个为不含　降雨信息的单元．不确定ＧＭ．ＣＦＳＦＤＰ聚类算法利用　不确定属性对降雨进行刻画，使用Ｅ一　距离公式计　算数据对象之间的距离，构建不确定ＧＭ．ＣＦＳＦＤＰ聚　类算法滑坡危险性预测模型．分别采用两类算法在宝　塔区进行滑坡危险性预测，依据滑坡危险性等级划分　标准获得其等级划分，并计算两种算法的预测精度　Ｐｒ（ａ）￣ＤＫａｐｐａ系数，如表２所示．　表２　两种算法滑坡危险性预测等级划分及预测精度比较表　在满足相同的聚类条件时，不确定ＧＭ．ＣＦＳＦＤＰ　聚类算法的预测精度为９３．２７％，比传统ＣＦＳＦＤＰ聚类　算法高出约４个百分点，Ｋａｐｐａ系数值是Ｏ．８９３９，传统　ＣＦＳＦＤＰ聚类算法的Ｋａｐｐａ为０．８２５０，说明不确定　ＧＭ—ＣＦＳＦＤＰ聚类算法具有较好的滑坡危险性预测准　确性．结果分析不确定ＧＭ．ＣＦＳＦＤＰ的预测精度和　２００研究开发Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ　效果不佳问题，提高了滑坡危险性预测的精确度．　３结束语　针对滑坡危险性预测中的诱发因素降雨刻画难、　ＣＦＳＦＤＰ算法对大规模数据集聚类不准确以及人为设　置密度阈值等问题，文中提出了不确定ＧＭ．ＣＦＳＦＤＰ　聚类算法，结合延安市宝塔区进行实例验证．该算法设　计新型Ｅ—ＭＬ距离公式，实现不确定数据的有效刻画；　通过网格划分的思想对滑坡数据集进行数据空间网格　划分，实现了大规模数据有效编码，利用平均密度思想　构建密度阈值选择模型，动态确定密度阈值，对滑坡数　据对象进行初始聚类，最后合并关联性较高的类，解决　算法需人工设置密度阈值及处理大规模数据聚类效果　不佳的问题．实验结果表明不确定ＧＭ—ＣＦＳＦＤＰ聚类　算法滑坡危险性预测具有较高的精度，证明了该算法　的可行性，也为进一步的相关研究打下了基础．　参考文献　１　Ｈｕａｎｇ　ＦＭ，Ｈｕａｎｇ　ＪＳ，Ｊｉａｎｇ　ＳＨ，ｅｔ　ａ１．Ｌａｎｄｓｌｉｄｅ　ｄｉｓｐｌａｃｅｍｅｎｔ　ｐｒｅｄｉｃｔｉｏｎ　ｂａｓｅｄ　ｏｎ　ｍｕｌｔｉｖａｒｉａｔｅ　ｃｈａｏｔｉｃ　ｍｏｄｅｌ　ａｎｄ　ｅｘｔｒｅｍｅ　ｌｅａｒｎｉｎｇ　ｍａｃｈｉｎｅ．Ｅｎｇｉｎｅｅｒｉｎｇ　Ｇｅｏｌｏｇｙ，２０１７，２１８：１７３—　１８６．［ｄｏｉ：１０．１０１６￣．ｅｎｇｇｅｏ．２０１７．０１．０１６】　２　Ｓａｌｃｉａｒｉｎｉ　Ｄ，Ｆａｎｅｌｌｉ　Ｇ，Ｔａｍａｇｎｉｎｉ　Ｃ．Ａ　ｐｒｏｂａｂｉｌｉｓｔｉｃ　ｍｏｄｅｌ　ｆｏｒ　ｒａｉｎｆａｌｌ—ｉｎｄｕｃｅｄ　ｓｈａｌｌｏｗ　ｌａｎｄｓｌｉｄｅ　ｐｒｅｄｉｃｔｉｏｎ　ａｔ　ｔｈｅ　ｒｅｇｉｏｎａｌ　ｓｃａｌｅ．Ｌａｎｄｓｌｉｄｅｓ，２０１７，ｌ４（５）：１７３１－１７４６．［ｄｏｉ：　１０．１００７／ｓ１０３４６—０１７－０８１２—０］　３张俊，殷坤龙，王佳佳，等．三峡库区万州区滑坡灾害易发　性评价研究．岩石力学与工程学报，２０１６，３５（２）：２８４－２９６．　４文建华，周翠英，黄林冲，等．边坡稳定性分类评价的同伦　模糊Ｃ．均值聚类算法．岩土力学，２０１２，３３（５）：１４５７—１４６１．　５孙树林，余文平，刘小芳，等．基于信息熵与ＫＰＳＯ聚类法　滑坡敏感性分析．环境保护科学，２０１　４，４０（６）：８８－９６．　６吴亚子，杨敏．灰色聚类法在阿里地区地质灾害危险性评　价中的应用．水资源与水工程学报，２０１０，２１（６）：１５５—１５８．　７　Ｙａｎｇ　ＭＳ．Ｎａｔａｌｉａｎｉ　Ｙ．Ｒｏｂｕｓｔ　ｌｅａｒｎｉｎｇ　ｆｕｚｚｙ　ｃ—ｍｅａｎｓ　ｃｌｕｓｔｅｒｉｎｇ　ａｌｇｏｒｉｔｈｍ　ｗｉｔｈ　ｕｎｋｎｏｗｎ　ｎｕｍｂｅｒ　ｏｆ　ｃｌｕｓｔｅｒｓ．　ＰａＲｅｍ　Ｒｅｃｏｇｎｉｔｉｏｎ，２０１７，７１：４５—５９．［ｄｏｉ：１０．１０１６￣．ｐａｔｃｏｇ．　２０１８年第２７卷第６期　ｈｔｔｐ：／／ｗｗｗ．ｃ－Ｓ－ａ．ｏｒｇ．ｃｎ　计算机系统应用　２０１７．０５．０１７］　１６李宗林，罗可．ＤＢＳＣＡＮ算法中参数的自适应确定．计算　机工程与应用，２０１６，５２（３）：７０Ｌ－７３．　８赵文冲，蔡江辉，张继福．改进ｋ值自动获取ＶＤＢＳＣＡＮ　聚类算法．计算机系统应用，２０１６，２５（９）：１３１—１３６．［ｄｏｉ：　１０．１５８８８￣．ｃｎｋｉ．ｃｓａ．００５３２５］　９　Ｒｏｄｒｉｇｕｅｚ　Ａ，Ｌａｉｏ　Ａ．Ｃｌｕｓｔｅｒｉｎｇ　ｂｙ　ｆａｓｔ　ｓｅａｒｃｈ　ａｎｄ　ｆｉｎｄ　ｏｆ　１７孙吴，张明新，戴娇，等．基于网格的快速搜寻密度峰值的　聚类算法优化研究．计算机工程与科学，２０１７，３９（５）：　９６４－９７０．　ｄｅｎｓｉｔｙ　ｐｅａｋｓ．Ｓｃｉｅｎｃｅ，２０１４，３４４（６１９１）：１４９２—１４９６．［ｄｏｉ：　１０．１　１２６／ｓｃｉｅｎｃｅ．１２４２０７２】　１０　Ｔｒａｎ　Ｌ，Ｄｕｃｋｓｔｅｉｎ　Ｌ．Ｃｏｍｐａｒｉｓｏｎ　ｏｆ　ｆｕｚｚｙ　ｎｕｍｂｅｒｓ　ｕｓｉｎｇ　ａ　ｆｕｚｚｙ　ｄｉｓｔａｎｃｅ　ｍｅａｓｕｒｅ．Ｆｕｚｚｙ　Ｓｅｔｓ　ａｎｄ　Ｓｙｓｔｅｍｓ，２００２，　１８乔端瑞．基于Ｋ．ｍｅａｌｌＳ算法及层次聚类算法的研究与应用　［硕士学位论文】．长春：吉林大学，２０１６．　１９吕琳，尉永清，任敏，等．基于蚁群优化算法的凝聚型层次　聚类．计算机应用研丸２０１７，３４（１）：１　ｌ４－ｌ１７．　１３０（３）：３３１－３４１＿【ｄｏｉ：１０．１０１６／Ｓ０１６５－０１１４（０１）００１９５－６】　ｌｌ刘华文．基于距离测度的模糊数排序．山东大学学报（理学　版），２００４，３９（２）：３０－３６．　１２王飞，王国胤，李智星，等．一种基于网格的密度峰值聚类　算法．小型微型计算机系统，２０１７，３８（５）：１０３４－１０３８．　１３邢长征，王晓旭．基于扩展网格和密度的数据流聚类算法．　计算机工程２０１４，４０（１２）：１８８－１９４．［ｄｏｉ：１０．３７７８￣．ｉｓｓｎ．１００２－　８３３１．１２０７－０１０１】　１４米源，杨燕，李天瑞．基于密度网格的数据流聚类算法．计　算机科学，２０１　１，３８（１２）：１７８—１８１．【ｄｏｉ：１０．３９６９０．ｉｓｓｎ．１００２－　１３７Ｘ．２０１　１．１２．０４０］　１５蒋礼青，张明新，郑金龙，等．快速搜索与发现密度峰值聚　类算法的优化研究．计算机应用研究，２０１６，３３（１１）：　３２５１－３２５４．　２０刘卫明，高晓东，毛伊敏，等．不确定遗传神经网络在滑坡　危险性预测中的研究与应用．计算机工程，２０１７，４３（２）：　３０８－３１６．　２１　Ｙｅｏｎ　ＹＫ，Ｈａｒｔ　ＪＧ，Ｒｙｕ　ＫＨ．Ｌａｎｄｓｌｉｄｅ　ｓｕｓｃｅｐｔｉｂｉｌｉｙｔ　ｍａｐｐｉｎｇ　ｉｎ　Ｉｎｊａｅ，Ｋｏｒｅａ，ｕｓｉｎｇ　ａ　ｄｅｃｉｓｉｏｎ　ｔｒｅｅ．Ｅｎｇｉｎｅｅｒｉｎｇ　Ｇｅｏｌｏｇｙ，２０１０，１　１６（３—４）：２７４－２８３．【ｄｏｉ：１０．１０１６０．ｅｎｇｇｅｏ．　２０　１　０．０９．００９】　２２王磊，张春山，杨为民，等．基于ＧＩＳ的甘肃省甘谷县地质　灾害危险性评价．地质力学学报，２０１　１，１７（４）：３８８－４０１．　２３邱海军．区域滑坡崩塌地质灾害特征分析及其易发性和危　险性评价研究【博士学位论文】．西安：西北大学，２０１２．　２４辛鹏，吴树仁，石菊松，等．基于降雨响应的黄土丘陵区滑　坡危险性预测研究——以宝鸡市麟游县为例．地球学报，　２０１２，３３（３）：３４９—３５９．　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ研究开发２０１　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文