当前位置:首页 > 行业论文 > 正文内容

行业论文:公安信息检索系统中信息提取及索引的实现

免费论文2年前 (2022-01-23)行业论文95

近年来随着公安信息化建设的不断推进,公安系统内部积累了丰富的信息资源。为了解决公安专网内查找信息困难和资源利用率低的问题,公安部提出了建设公安专用信息检索系统的需要。本文研究的信息提取和索引技术正是实现公安信息检索系统的关键支撑技术。本文首先对数据提取及索引的相关技术进行了研究与分析,并讨论了LDAP目录服务和Lucene索引构建的特点及相关原理。然后根据公安特定业务的需求,提出基于LDAP目录服务的信息提取方法和基于Lucene的全文索引构建方案。在基于LDAP目录服务的信息提取方案的中,利用元数据描述数据源信息和数据提取规则,并将数据源映射为LDAP目录信息树中的相应节点,在数据采集过程中通过遍历目录信息树来搜集数据源信息,并在此基础上完成了信息提取的初步实现。在索引服务的设计与实现中,根据公安专用的中文分词技术,采用Lucene对信息提取过程中生成的索引文档进行索引,并生成相应的索引文件。为了提高索引性能,本文对索引过程中各阶段的时间开销进行测试,通过分析实验结果找出索引构建的瓶颈——文本分析阶段。针对这一问题,本文在索引构建中引入多线程机制,对索引文档分组并行索引。这种并行索引机制弥补了基本索引过程中文本分析和I/O操作相互等待造成的时间开销,使平均索引效率得到提高。此外本文还对索引构建过程中索引I/O操作频度控制方法进行了研究和实验。 最后本文对研究成果和有待进一步研究的问题进行了总结。

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。