当前位置：首页 > 论文摘要 > 正文内容

论文摘要：面向航天领域异构数据汇聚及数据一致性研究

免费论文3年前 (2022-01-25)论文摘要62

计算机技术的高速发展极大地推动了航天领域的信息化进程。各种航天器型号与数量不断增加，任务更加纷繁复杂，其产生的数据类型日趋多样化，数据量也持续增长。这些大量的异构数据组成了众多的分布式数据源。事实表明，这些数据源包含诸如数据不一致等质量问题的概率相当高，给用户高效正确的访问和数据自身的存储管理造成了极大的困难。数据汇聚是解决“信息孤岛”问题的有效手段。因此，如何建立合理的汇聚机制和良好的数据一致性管理框架，将大量异构数据通过“提取-转换-加载(Extract-Transform-Load，ETL)”的方式进行物理集成，进而形成数据仓库或决策支持系统(Decision Support Systems，DSS)成为了一项极具挑战性的工作。

针对上述问题，本文重点研究了数据源选择、半结构化实体识别、缺失数据修正和数据一致性管理等关键问题。主要研究成果如下：

(1)提出了一个面向数据源选择的模糊多准则群决策模型

在航天器的研制过程中，需要分析来自众多质量参差不齐的异构数据源的数据。如何在保证获取完整目标数据的前提下排除低质量数据源、减轻汇聚系统的负担，成为了一个亟待解决的问题。通过多准则决策来解决方案排序问题是数据源选择的一个研究热点。但是经典的TOPSIS法既无法合理地处理语言评价信息，又过分依赖于专家的主观意见对准则赋权，还因采用欧几里德距离计算相似度而存在错误判断的风险。针对这些弊端，提出了一种模糊的多准则群决策模型。它利用梯形模糊数对定性数据和定量数据进行统一表示；按照最小信息熵原则，利用拉格朗日乘子法将层次分析法和熵权法集成，获得组合权重；使用卡方检验值作为距离尺度；并提出加权Borda法则，将多个决策者的评判结果进行整合。相关算例的运行证明本模型的有效性；同时，通过与其它模型的对比分析证明其合理性。

(2)提出了一种面向半结构化数据的实体识别方法

Internet技术的迅猛发展使得可扩展标记语言(XML)文档作为数据存储介质的应用范围越来越广泛。当前，航天领域中也存在着大量的XML数据文件。XML作为一种层次状的半结构化数据，比传统关系型数据库的结构化数据更加复杂。当多个不同数据源均以XML格式存储数据时，现实世界中的同一事物对象可能由格式和内容不尽相同的元素描述，造成了模式级和展示级的不一致性。因此，当对多个数据源的XML数据进行汇聚时，如何有效地检测出这些相似重复记录便成为了一个新的挑战。本文针对该挑战，提出了VKXMLD(Virtual Key-based XML Deduplication)算法。该算法首先按照XML标签模板对原始数据结构调整趋同；提出根据节点元素的信息增益率确定节点的权重，并结合该权重抽取元素文本为每个实体生成一个更加准确的虚拟主键；采用新的字段匹配度量尺度，更加准确地判断节点元素内容的相似程度；设计快速过滤规则，减少了全局计算量；增加了分类验证策略，提高了所识别记录与实体对应关系的准确性。该算法在测试数据集和真实数据集上的运行均获得了较高的查全率、查准率和F-Score。

(3)提出了一种面向航天领域的缺失数据修正方法

由于数据的观测与采集受到众多主客观因素的制约，因而在航天器研制的各阶段，数据不完备现象时有发生。它破坏了数据的完整性和一致性，降低了数据质量。针对这一重要问题，提出了一种基于聚类与灰度系统理论的多重修正方法——MIGEC (Multiple Imputation using Gray-system-theory and Entropy based on Clustering)。该方法首先将实例分为完整子集和非完整子集，然后对完整子集中的数据实例进行模糊聚类，再以灰度系统理论中的灰度关联等级作为分类准则，将非完整子集中的缺失实例按缺失程度从低到高逐一分配到已形成的完整实例类中，并借助其所在类中其它完整数据的信息，采用基于信息熵的方法进行多重修正。该方法在三种典型缺失机制下的UCI (University of California Irvine)数据集和真实数据集上的运行效果表明其拥有较高的精确度。

(4)提出了一个面向航天领域数据汇聚的一致性管理框架

航天领域数据源的自治性和异构性常常导致汇聚时出现从结构到观测值等各种类型的不一致现象，它不仅决定了汇聚的质量，更影响着后续的决策分析。传统的依赖领域专家判断来解决一致性问题不但增加了工作量，更无法适应日益增长的数据量。针对该问题，本文将数据汇聚过程中的不一致现象划分成概念、逻辑、事实三个层次，并据此提出了一个准确发现并妥善处理各层次一致性问题的管理框架。其中，着重针对事实数据值的不一致问题，提出了相应的解决办法。该方法借助粗糙集的思想，基于条件熵和互信息，对属性重要程度进行刻画。针对核心属性的不一致数据值采用基于证据理论的数据融合策略；针对非核心属性的不一致数据采用计算最小方差进行冲突消解。实验证明了该方法有效地提高了准确度和自动化程度。