西  安  交  通  大  学  学  报

Vol.39 No.04

Journal of Xi'an Jiaotong Universtity

Nov.2005

 
基于熵和信息粒度的粗糙集聚类算法
何 明,冯博琴,马兆丰,傅向华
(西安交通大学计算机科学与技术系,710049, 西安)

 

摘要: 针对多数聚类算法只能单独处理数值特征数据或类属特征数据,而不能分析具有两种混合属性数据的问题,基于熵和信息粒度提出了粗糙集理论框架下不同粒度划分上的聚类算法. 该算法利用相似关系,通过计算每个数据点的熵并选取具有最小熵值的数据点作为聚类中心,将与该聚类中心相似度大于阈值β的所有数据点聚集形成数字颗粒结构. 在整个聚类过程中无需调整每个数据点的熵值,缩短了计算时间,同时利用粗糙集的不可分辨关系形成字符颗粒结构,通过不断调整、合并这两种颗粒结构,实现了具有混合属性特征数据的聚类分析. 实验结果比较表明,该算法是有效、可行的,当β取值为0.8时,算法的聚类有效性最大值可达0.96,该值较同条件下的其他聚类算法要高.
关键词: 粗糙集;熵;聚类分析;信息粒度
中图分类号: TP18 文献标识码: A 文章编号: 0253-987X(2005)04-0343