论文摘要:面向主题的信息获取与发布系统的设计与实现
随着互联网技术的发展,越来越丰富的资源供人们使用,但与此同时也使得快速找到有效的信息成为难题。传统的搜索引擎提供领域广泛的信息服务,而对于聚集某一主题的信息显得力不从心。因此面向某一特定主题的信息获取成为一个研究热点。本文在.Net平台下设计并实现了一个以实习招聘为主题的信息获取与发布系统。在研究过程中,提出了需要解决的几个问题并给出了相关的解决方案,取得良好的效果。具体的问题和相关解决方案如下:1. 信息获取的实时性随着互联网的飞速发展,网页的数量越来越多,人们期望在最短的时间内得到最新的信息。本系统在服务器端使用分布式并行的体系结构,在客户端利用RSS订阅技术获取服务端的信息。通过这种体系结构可以提高信息获取的实时性。2. 网页正文的有效提取网页中含有一些主题无关的噪音信息,需要进行去除。本系统将网页下载之后,采用HTML文档对象模型来解析网页内容,然后通过对网页中内容块的类型分析对主题无关的噪音信息进行去除,最终提取有效的正文信息。3. 网页信息的主题相关性分析对于主题相关网页的筛选需要将搜集到的网页进行主题相关性分析。本系统首先创建主题词汇库,将其作为相关性分析的词汇依据,然后通过布尔模型进行词汇匹配,随后利用正则表达式提取部分特殊字段并在此基础上使用布尔决策树进行分析,最终达到良好的分析效果。4. 相似网页的去重互联网上存在着大量的内容重复网页,对于这些网页只需要保留一个副本。本系统首先通过记录网页对应的服务器主机,避免重复搜集同一主机上的相同网页。然后将正文进行分句并且以每个分句作为特征项来组成特征向量,利用向量空间模型分析网页间的相似度,最后去除冗余的相似网页。