当前位置：首页 > 论文纲要 > 正文内容

论文摘要：Deep Web信息提取系统的研究与实现

免费论文3年前 (2022-01-23)论文纲要125

随着Internet的快速发展，供人们使用的电子信息资源越来越丰富，但要快速有效地获取所需的相关信息却变得越来越困难。因而对信息获取技术的发展提出了更高的要求。传统搜索引擎仅仅对通过超链接相互连接的表层静态网页进行索引，而无法对互联网中许多动态的、存储在网络数据库中的结构化信息进行索引，使它们变得不可见。并且这些深层网络信息的数量非常巨大，质量高，增长速度比表层网络还要快得多。传统的搜索引擎无法对这些深层信息进行搜索和分析，因此提出深层网络信息的提取技术。本文首先介绍了Deep Web的概念及搜索引擎的相关知识，接着研究了Deep Web的形成原因及Deep Web信息提取技术，设计了Deep Web信息提取系统的框架，提出一种基于决策树的查询接口识别技术，结合国家科技基础条件平台的特定需求，实现了Deep Web信息提取系统，并为用户提供了简便的查询界面。本文主要的工作和取得的成果包括：研究与分析了搜索引擎的原理，通过对现有的一些Deep Web检索工具及典型系统HiWE的分析，总结了Deep Web信息提取技术中的核心问题。分析了Deep Web信息提取技术中的关键问题——查询接口的识别，并介绍和分析了一个早期的解决方案，针对其不足之处进行了改进，提出了一种基于决策树的查询接口识别技术。实验表明，该方法和早期的解决方案相比，取得了较好的效果。针对结果页面的模式和特点，提出了一种区别中间页面，及导航所有结果页面的方法，该方法通过发现结果信息的URL模式，有效地解决了系统中的一个技术难点。结合课题依托项目国家科技基础条件平台门户应用系统的特定需求，采用基于J2EE的技术框架，实现了Deep Web信息提取系统，并集成到科技门户应用系统中。

返回列表

上一篇：论文纲要：留洋职员档案消息处置体例的安排与实行

下一篇：论文纲要：弟子试验工作处置体例安排与实行

论文纲要：鉴于PCI/DSP的OFDM基带处置平台的接洽3年前 (2022-01-23)

论文纲要：鉴于双CAN总线的数字伺服通信和议接洽3年前 (2022-01-23)

论文纲要：宇航货运出卖体例新一代前者产物——代劳人派别体例的研制3年前 (2022-01-23)

论文纲要：铝合金完全构造件铣削加工剩余应力及变形接洽3年前 (2022-01-23)

论文纲要：留洋职员档案消息处置体例的安排与实行3年前 (2022-01-23)

论文摘要：基于SNMP网络性能数据采集的研究与实现3年前 (2022-01-23)