当前位置:首页 > 论文纲要 > 正文内容

论文摘要:基于向量空间模型的文本聚类方法研究与实现

免费论文3年前 (2022-01-23)论文纲要72

近年来随着Internet的大规模普及和大型数字化知识资源库的兴起,以电子形式存在的文本信息飞速增长,针对大规模知识数据的管理、数字化加工、知识获取、资源检索等信息处理技术得到了广泛的重视。文本聚类作为文本挖掘技术的重要内容,能够根据数据内在分布将文本划归不同的类别,以达到更好地把握整个文本集的目的,在对文本数据的分析、组织和管理中具有重要意义。然而文本数据固有的无结构或半结构化特性加之自然语言的丰富性,使得文本数据存在高维度、内在稀疏等特点,给聚类算法的应用带来了很大困难。 本论文针对文本数据的以上特点,研究文本聚类中特征选择、数据降维、降低运算复杂度等关键问题,研究出一种有效的文本聚类机制,以达到改善聚类效果、提高聚类效率的目的。 本文的主要工作和取得的成果如下: 利用数据场方法实现了多代表点的提取,并在此基础上提出了一种基于多代表点方法的聚类模型。该方法通过拟合数据的势场分布,提取核心代表点参与聚类,达到了提取核心文本、简化数据集、提高算法运算效率的目的。 在分析和研究了常用特征选择方法的基础上,改进了特征强度特征选择方法以适应文本聚类处理的要求。其特征选择效果明显好于常用无指导特征选择方法,实现了文本数据集的有效降维。 结合文本预处理和具体聚类算法设计并实现了基于向量空间模型方法的文本聚类工具,可实现文本的分词、词干提取、向量表示、特征提取、代表点提取、聚类分析、结果评价、关键词提取等功能,实现了文本聚类的全过程。

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。