论文摘要:专利文本自动分类方法的研究与实现
文本分类作为数据挖掘领域的一个重要分支,是近年来一个十分活跃的研究领域。专利文本分类的提出是为了将先进的文本自动分类技术应用于专利审查阶段,以代替繁琐的人工分类过程,适应电子化生产的趋势。目前,在文本分类领域已经取得了很多令人瞩目的研究成果,但它们大多数都针对通用领域中的文本分类,对存在很多自身特点的专利文本分类并不适用。为了满足专利文本分类的要求,本论文对现有的各种特征选择技术和分类算法进行了研究,并深入分析了专利案卷自身的特点和专利文本分类的需求,设计了针对专利文本分类的特征提取算法以及关联规则与双重加权近似支持向量机相结合的组合分类器算法。专利文本特征提取算法依靠训练数据集合的信息熵和词语的条件熵之间信息量的增益关系确定词语在文本分类中的权重,同时引入词语的位置信息来考察一个单词在分类中所包含的信息量;关联规则分类器在传统算法中引入权重因子,并采用树状存储方式以减少规则修剪带来的影响;双重加权近似支持向量机则同时引入类别惩罚因子和样本模糊隶属度函数,以消除类别差异的影响和噪声数据的干扰。为了对算法有更直观的了解和验证算法的有效性,我们实现了一个专利文本分类原型系统,对专利申请案卷的分类过程进行了演示。 本论文首先从专利文本分类的研究意义出发,介绍了专利分类的主要理论和技术,并详细分析了专利分类的特点和需求,在此基础上,对现有的特征选择算法和分类技术的特点与不足进行了分析,提出了旨在针对专利文本分类的特征提取技术和分类算法。并针对以上算法实现了一个应用原型,同时对各种算法的可行性进行了验证。