西 安 交 通 大 学 学 报

Vol.39No.8

JournalofXi'anJiaotongUniversity

Jan.2005

engl.gif (1752 字节)

zfh.gif (1500 字节)

 

网络信息审计系统中的文本片断模糊分类算法
李金库,张德运,高鹏,孙钦东
(西安交通大学电子与信息工程学院,710049,西安)

摘要:分析了分段对文本分类的影响,提出了与文本语义密切相关的最大语义标志原则(MSMR)和段落间的语义激励原则(SIR),在模糊K-最近邻分类算法的基础上,应用这2个原则设计并实现了一种基于上下文的文本片断模糊分类算法.该算法依据SIR判断文本片段分类的相互影响,降低了片段分类的错误率,当某一片断类隶属度大于某一阈值时,依据MSMR判定可知,同一文档的后续片断均属于同一类别,这样就不用计算所有片断的类隶属度.实验表明:与模糊K-最近邻分类算法相比,所提算法能有效提高系统的查准率、查全率和正确率,其中查全率可提高16%以上;在同一会话中,由于被明确分类后的后续片段不需要计算类隶属度,所以算法总计算时间明显少于模糊K-最近邻分类算法,具有较高的分类效率.
关键词:文本片段分类;信息审计;K-最近邻;模糊分类
中图分类号:TP393文献标识码:A文章编号:0253-987X(2005)08-0800-04