当前位置：首页 > 论文纲要 > 正文内容

论文摘要：基于向量空间模型的文本聚类方法研究与实现

免费论文3年前 (2022-01-23)论文纲要83

近年来随着Internet的大规模普及和大型数字化知识资源库的兴起，以电子形式存在的文本信息飞速增长，针对大规模知识数据的管理、数字化加工、知识获取、资源检索等信息处理技术得到了广泛的重视。文本聚类作为文本挖掘技术的重要内容，能够根据数据内在分布将文本划归不同的类别，以达到更好地把握整个文本集的目的，在对文本数据的分析、组织和管理中具有重要意义。然而文本数据固有的无结构或半结构化特性加之自然语言的丰富性，使得文本数据存在高维度、内在稀疏等特点，给聚类算法的应用带来了很大困难。本论文针对文本数据的以上特点，研究文本聚类中特征选择、数据降维、降低运算复杂度等关键问题，研究出一种有效的文本聚类机制，以达到改善聚类效果、提高聚类效率的目的。本文的主要工作和取得的成果如下：利用数据场方法实现了多代表点的提取，并在此基础上提出了一种基于多代表点方法的聚类模型。该方法通过拟合数据的势场分布，提取核心代表点参与聚类，达到了提取核心文本、简化数据集、提高算法运算效率的目的。在分析和研究了常用特征选择方法的基础上，改进了特征强度特征选择方法以适应文本聚类处理的要求。其特征选择效果明显好于常用无指导特征选择方法，实现了文本数据集的有效降维。结合文本预处理和具体聚类算法设计并实现了基于向量空间模型方法的文本聚类工具，可实现文本的分词、词干提取、向量表示、特征提取、代表点提取、聚类分析、结果评价、关键词提取等功能，实现了文本聚类的全过程。

返回列表

上一篇：论文纲要：搜集期间党内监视的新特性、新办法接洽

下一篇：论文摘要：基于RTEMS实时操作系统下IKE的移植与改进

论文纲要：复合型邮电通信升值效劳体例的安排与实行3年前 (2022-01-23)

论文纲要：软硬件构架循序渐进安排进程、建立模型谈话及扶助东西接洽3年前 (2022-01-23)

论文纲要：运用智能和非决定本领举行运载运载火箭多学科领会与观念安排3年前 (2022-01-23)

论文纲要：监理对电子行政事务数据调换平台招标阶段的品质遏制3年前 (2022-01-23)

论文摘要：气流湍流颗粒分散与表面改性处理3年前 (2022-01-23)

论文纲要：鉴于手持相机和SFM算法的巨型曲面精细坐标丈量本领接洽3年前 (2022-01-23)