空间数据的元数据

Metadata可以译成元数据,是描述数据的数据。在地理空间数据中,元数据是说明数据内容、质量、状况和其他有关特征的背景信息。元数据并不是一个新的概念。实际上传统的图书馆卡片、出版图书的版权说明、磁盘的标签等都是元数据。纸质地图的元数据主要表现为地图类型、地图图例,包括图名、空间参照系和图廓坐标、地图内容说明、比例尺和精度、编制出版单位和日期或更新日期、销售信息等。在这种形式下,元数据是可读的,生产者和用户之间容易交流,用户通过它可以非常容易地确定该书或地图是否能够满足其应用的需要。

随着计算机技术和GIS技术发展,特别是网络通信技术的发展,空间数据共享日益普遍。管理和访问大型数据集的复杂性正成为数据生产者和用户面临的突出问题。数据生产者需要有效的数据管理和维护办法;用户需要找到更快、更加全面和有效的方法,以便发现、访问、获取和使用现势性强、精度高、易管理和易访问的地理空间数据。在这种情况下,空间数据的内容、质量、状况等元数据信息变得更加重要,成为信息资源有效管理和应用的重要手段。地理信息元数据标准和操作工具已经成为国家空间数据基础设施 [2]_的一个重要组成部分。

在地理信息系统应用中,元数据的主要作用可以归纳为如下几个方面:

  1. 帮助数据生产单位有效地管理和维护空间数据、建立数据文档,并保证即使其主要工作人员离退时,也不会失去对数据情况的了解;

  2. 提供有关数据生产单位数据存储、数据分类、数据内容、数据质量、数据交换网络及数据销售等方面的信息,便于用户查询检索地理空间数据;

  3. 帮助用户了解数据,以便就数据是否能满足其需求做出正确的判断;

  4. 提供有关信息,以便用户处理和转换有用的数据。

可见,元数据是使数据充分发挥作用的重要条件之一,它可以用于许多方面,包括数据文档建立、数据发布、数据浏览、数据转换等。元数据对于促进数据的管理、使用和共享均有重要的作用。

元数据的概念及类型

元数据的概念

元数据是关于数据的描述性数据信息,它应尽可能多地反映数据集自身的特征规律,以便于用户对数据集的准确、高效与充分的开发与利用,不同领域的数据库,其元数据的内容会有很大差异。通过元数据可以检索、访问数据库,可以有效利用计算机的系统资源,可以对数据进行加工处理和二次开发等。

到目前为止,科学界关于元数据认识的共同点是:元数据的目的就是促进数据集的高效利用,并为计算机辅助软件工程(CASE)服务。元数据的内容包括:

  1. 对数据集的描述;对数据集中各数据项、数据来源、数据所有者及数据序代(数据生产历史)等的说明;

  2. 对数据质量的描述,如数据精度、数据的逻辑一致性、数据完整性、分辨率、元数据的比例尺等;

  3. 对数据处理信息的说明,如量纲的转换等;

  4. 对数据转换方法的描述;

  5. 对数据库的更新、集成等的说明。

元数据的类型

元数据的分类研究的目的在于充分了解和更好地使用元数据。分类的原则不同,元数据的分类体系和内容将会有很大的差异。

1)根据元数据的内容分类

由于不同性质、不同领域的数据所需要的元数据内容有差异,而且为不同应用目的而建设的数据库的元数据内容会有很大的差异,所以将元数据化分为三种类型:

(1.1)科研型元数据:其主要目标是帮助用户获取各种来源的数据及其相关信息,它不仅包括如数据源名称、作者、主体内容等传统的、图书管理式的元数据,还包含数据拓扑关系等。这类元数据的任务是帮助科研工作者高效获取所需数据。

(1.2)评估型元数据:主要服务于数据利用的评价,内容包括数据最初收集情况、收集数据所用的仪器、数据获取的方法和依据、数据处理过程和算法、数据质量控制、采样方法、数据精度、数据的可信度、数据潜在应用领域等。

(1.3)模型元数据:用于描述数据模型的元数据与描述数据的元数据在结构上大致相同,其内容包括模型名称、模型类型、建模过程、模型参数、边界条件、作者、引用模型描述、建模使用软件、模型输出等。

2)根据元数据描述对象分类

(1.1)数据层元数据:指描述数据集中每个数据的元数据,内容包括日期邮戳、位置戳、量纲、注释、误差标识、缩略标识、存在问题标识、数据处理过程等。

(1.2)属性元数据:是关于属性数据的元数据,内容包括为表达数据及其含义所建的数据字典、数据处理规则(协议),如采样说明、数据传输线路及代数编码等。

(1.3)实体元数据:是描述整个数据集的元数据,内容包括数据集区域采样原则、数据库的有效期、数据时间跨度等。

3)根据元数据在系统中的作用分类

(1.1)系统级别元数据:指用于实现文件系统特征或管理文件系统中数据的信息,如访问数据的时间、数据的大小、在存储级别中的当前位置、如何存储数据块以保证服务控制质量等。

(1.2)应用层元数据:指有助于用户查找、评估、访问和管理数据等与数据用户有关的信息,如文本文件内容的摘要信息、图形快照、描述与其它数据文件相关关系的信息。它往往用于高层次的数据管理,用户通过它可以快速获取合适的数据。

4)根据元数据的作用分类

(4.1)说明元数据:是为用户使用数据服务的元数据。它一般用自然语言表达,如源数据覆盖的空间范围、源数据图的投影方式及比例尺的大小、数据集说明文件等,这类元数据多为描述性信息,侧重于数据库的说明。

(4.2)控制元数据:是用于计算机操作流程控制的元数据,这类元数据由一定的关键词和特定的句法来实现。其内容包括数据存储和检索文件、检索中与目标匹配方法、目标的检索和显示、分析查询结果排列显示、根据用户要求修改数据库中原有的内部顺序、数据转换方法、空间数据和属性数据的集成、根据索引项把数据绘制成图、数据模型的建设和利用等。这类元数据主要是与数据库操作有关的方法。

空间数据元数据中所用到的概念:

空间数据(Geospatial Data):用于确定具有自然特征或者人工建筑特征的地理实体的地理位置、属性及其边界的信息;

类型(Type):在元数据标准中,数据类型指该数据能接收的值的类型;

对象(Object):对地理实体的部分或整体的数字表达;

实体类型(Entity Type):对于具有相似地理特征的地理实体集合的定义和描述;

点(Point):用于位置确定的零维地理对象;

结点(Node):拓扑连接两个或多个链或环的一维对象;

标识点(Label Point):显示地图后图表时用于特征标识的参考点;

线(Line):一维对象的一般术语;

线段(Line Segment):两个点之间的直线段;

串(String):由相互连接的一系列线段组成的没有分支线段的序列,它可与自身或与其它线相切;

弧(Arc):由数学表达式确定的点集组成的弧状曲线;

链(Link):两个结点之间的拓扑关联;

链环(Chain):非相切线段或由结点区分的弧段构成的有方向无分支序列;

环(Ring):封闭状不相切链环或弧段序列;

多边形(Ploygon):在二维平面中由封闭弧段包围的区域;

外多边形(Universe Polygon):数据覆盖区域内最外侧的多边形,其面积是其它所有多边形的面积之和;

内部区域(Interior Area):不包括其边界的区域;

格网(Grid):组成一规则或近似规则的棋盘状镶嵌表面的格网集合,或者组成一规则或近似规则的棋盘状镶嵌的点集合;

格网单元(Grid Cell):表示格网最小分为要素的二维对象;

矢量(Vector):有方向线的组合;

栅格(Raster):同一格网或数字影像的一个或多个叠加层;

像元(Pixel):二维图形要素,它是数学影像最小要素;

栅格对象(Raster Object):一个或多个影象或格网,每个影象或格网表示一个数据层,各层之间相应的格网单元或像元一致且相互套准;

图形(Graph):与预定义的限制规则一致的零维(如node)、一维(link或chain)和二维(T多边形)有拓扑相关的对象集;

数据层(Layer):集成到一起的面域分布空间数据集,它用于表示一个主体中的实体,或者有一公共属性或属性值的空间对象的联合;

层(Stratum):在有序系统中数据层、级别或梯度序列;

纬度(Latitude):在中央经线上度量,以角度单位度量离开赤道的距离;

经度(Longitude):经线面到格林尼治中央经线面的角度距离;

经圈(Meridian):穿过地球两极的地球的大圆圈;

坐标(Ordinate):在笛卡尔坐标系中沿平行于X轴和Y轴测量的坐标值;

投影(Projection):将地球球面坐标中的空间特征(集)转化到平面坐标体系时使用的数学转化方法;

投影参数(Projection Parameters):对数据集进行投影操作时用于控制投影误差、变形实际分布的参考特征;

地图(Map):空间现象的空间表征,通常以平面图形表示;

现象(Phenomenon):事实、发生的事件、状态等;

分辨率(Resolution):由涉及到或使用的测量工具或分析方法能区分开的两个独立测量或计算的值的最小差值;

质量(Quality):数据符合一定使用要求的基本或独特的性质;

详述(Explicit):由一对数或三个数分别直接描述水平位置和三维位置的方法;

介质(Media):用于记录、存储或传递数据的物理设备。

空间数据元数据的标准

同物理、化学等学科使用的数据结构类型相比,空间数据是一种结构比较复杂的数据类型。它涉及到对于空间特征的描述,也涉及到对于属性特征及其它们之间关系的描述,所以空间数据元数据标准的建立是项复杂的工作;并且由于种种原因,某些数据组织或数据用户开发出来的空间数据元数据标准很难为地学界所广泛接受。但空间数据元数据标准的建立是空间数据标准化的前提和保证,只有建立起规范的空间数据元数据才能有效利用空间数据。目前,针对空间数据元数据,已经形成了一些区域性的或部门性的标准。

空间数据元数据的应用

帮助用户获取数据

通过元数据,用户可对空间数据库进行浏览、检索和研究等。一个完整的地学数据库除应提供空间数据和属性数据外,还应提供丰富的引导信息,以及由纯数据得到的分析、综述和索引等。通过这些信息用户可以明白一系列问题,如“这些数据是什么数据?”,“这个数据库是否有用?”等。

空间数据质量控制

无论是统计数据还是空间数据都存在数据精确问题,影响空间数据精度的原因主要有两个方面:一是源数据的精度;一是数据加工处理工程中精度质量的控制情况。空间数据质量控制内容包括:(1)有准确定义的数据字典,以说明数据的组成,各部分的名称,表征的内容等;(2)保证数据逻辑科学地集成,如植被数据库中不同亚类的区域组合成大类区,这要求数据按一定逻辑关系有效的组合;(3)有足够的说明数据来源、数据的加工处理工程、数据解译的信息。这些要求可通过元数据来实现,这类元数据的获取往往由地学和计算机领域的工作者来完成。数据逻辑关系在数据中的表达要由地学工作者来设计,空间数据库的编码要求一定的地学基础,数据质量的控制和提高要有数据输入、数据查错、数据处理专业背景知识的工作人员,而数据再生产要由计算机基础较好的人员来实现。所有这方面的元数据,按一定的组织结构集成到数据库中构成数据库的元数据信息系统来实现上述功能。

在数据集成中的应用

数据集层次的元数据记录了数据格式、空间坐标体系、数据的表达形式、数据类型等信息;系统层次和应用层次的元数据则记录了数据使用软硬件环境、数据使用规范、数据标准等信息。这些信息在数据集成的一系列处理中,如数据空间匹配、属性一致化处理、数据在各平台之间的转换使用等是必要的。这些信息能够使系统有效地控制系统中的数据流。

在地理信息系统中使用元数据的原因

在地理信息系统中使用元数据,有利于空间数据的管理共享,有利于实现一些特定功能,对于地理信息系统软件的开发,可以提高开发的效率和质量。

性能上的原因

1)完整性(Completeness)

面向对象的地理信息系统和空间数据库的目标之一,是把事物的有关数据都表示为类的形式,而这些类也包括类自身,即复杂的“类的类”结构。这就要求有支持类与类之间相互印证和操作的机制,而元数据可以帮助这个机制的实现。

2)可扩展性(Extensibility)

有意地延伸一种计算机语言或者数据库特征的语义是很有用的,如把跟踪或引擎信息的生成结果添加到操作请求中,通过动态改变元数据信息可以实现这种功能。

3)特殊性(Specialization)

继承机制是靠动态连接操作请求和操作体来实现的,语言及数据库以结构化和语义信息的相关上下文(Context)方式把操作请求传递给操作体,而这些信息可以通过元数据表达。

4)安全性(Safety)

分类完好的语言和数据库都支持动态类型检测,类的信息表示为元数据,这样在系统运行时,可以被类检测者访问。

功能上的原因

1)查错功能(Debugging)

在查错时使用元数据信息,有助于检测可运行应用系统的解释和修改状态。

2)浏览功能(Browsing)

为数据的控制类开发浏览器时,为显示数据,要求能解释数据的结构,而这些信息是以元数据来表达的。

3)程序生成(Program Generation)

如果允许访问元数据,则可以利用关于结构的信息自动生成程序,如数据库查询的优化处理和远程过程调用残体(或“桩”,stub)生成。

空间数据元数据的获取与管理

空间数据元数据的获取

空间数据元数据的获取是个较复杂的过程,相对于基础数据的形成时间,它的获取可分为三个阶段:数据收集前、数据收集中和数据收集后。对于模型元数据,这三个阶段分别是模型形成前、模型形成中和模型形成后。

第一阶段的元数据是根据要建设的数据库的内容而设计的元数据,内容包括:普通元数据、专指性元数据;第二阶段的元数据随数据的形成同步产生;第三阶段的元数据是在上述数据收集到以后,根据需要产生的,包括数据处理过程描述、数据利用情况、数据质量评估、浏览文件的形成、拓扑关系、影像数据的指标体及指标、数据集大小、数据存放路径等。

空间数据元数据的获取方法主要有五种:键盘输入、关联表、测量法、计算法和推理法。键盘输入一般工作量大且易出错;关联表方法是通过公共项(字段)从已存在的元数据或数据中获取有关的;测量法容易使用且出错较少,如用全球定位系统测量数据空间点的位置等;计算方法指由其它元数据或数据计算得到的元数据,如水平位置可由仪器设置及时间计算得到;推理方法指根据数据的特征获取元数据。在元数据获取的不同阶段,使用的方法也有差异。在第一阶段主要是键入方法和关联表方法;第二阶段主要采样测量方法;第三阶段主要方法是计算和参考方法。

空间数据元数据的管理

空间数据元数据的理论和方法涉及到数据库和元数据两方面。由于元数据的内容、形式的差异,元数据的管理与数据涉及的领域有关,它是通过建立在不同数据领域基础上的元数据信息系统实现的。在元数据管理信息系统中,物理层存放数据与元数据,该层由一些软件通过一定的逻辑关系与逻辑层关联起来。在概念层中用描述语言及模型定义了许多概念,如实体名称、别名等。通过这些概念及其限制特征,经过与逻辑层关联可获取、更新物理层的元数据及数据。

元数据存储和功能实现

元数据系统用于数据库的管理,可以避免数据的重复存储,通过元数据建立的逻辑数据索引可以高效查询检索分布式数据库中任何物理存储的数据。减少数据用户查询数据库及获取数据的时间,从而减低数据库的费用。数据库的建设和管理费用是数据库整体性能的反映,通过元数据可以实现数据库的设计和系统资源的利用方面开支的合理分配,数据库许多功能(如数据库检索、数据转换、数据分析等)的实现是靠系统资源的开发来实现的,因而这类元数据的开发和利用将大大地增强数据库的功能并降低数据库的建设费用。

伴随着人类对数字地理信息重要性认识的加深,元数据标准化这一问题便逐渐成为共享地学信息的热点,而要研究元数据体系,则首先要对元数据的理论基础有一个正确的分析。事实上元数据标准依赖于信息共享标准的理论,它与自然科学中的许多学科都有交叉,几乎涉及数理化天地生中的所有方面,并依赖于现代科技的发展。计算机是它的基础平台,网络是它的通讯基础,没有数学模型和对各学科的综合认识,也就谈不上用遥感等技术研究地球机理。因此,从宏观角度来看,地理信息标准化涉及许多领域,似乎它的理论也枚不胜举;但从微观角度来考虑,数字地理信息所研究的共享体系理论则主要包括地理信息的模型建立表示理论、空间参照系理论、质量体系理论以及计算机通讯技术等方面的理论,它们是数据共享体系的基础。当然,其它能够促使地理信息共享的理论也将成为基于数字地球的元数据体系的有力支柱。

地理信息的质量体系

质量评价过程

地理空间数据的质量对数据生产者和用户来说都是一个非常重要的考虑因子,它可以使数据生产者正确描述他们的数据集符合生产规范的程度,也是用户决定数据集是否符合他们应用目的的依据。因此,探索数据质量的理论问题便成为地理空间数据标准化的重要组成部分。在元数据标准中,质量信息主要在标识信息、数据质量信息及其数据继承关系等元数据部分中出现,其所涉及的主要元素有数据集的完备性、逻辑一致性、位置精度、时间精度、专题精度等,而每一元素又有各自的子元素。由于用户需要不同层次的数据质量,有些用户需要高精度的信息,而另一些用户则有较低层次的精度便可以满足他们的需求,这样对数据集的质量标准就有不同的评价依据。但作为质量中的几何精度评价,则通过一定的计算公式和相应的精度指标,可以获得数据集的几何精度。

多尺度评价依据

在质量评定过程中,一般来说,数据的精度或准确度越高越好,但在实际应用中却不能不分对象一概而论。事实上有的数据在应用中的意义很大(如大地控制点等),其本身精度也可以达到很高,因此对这些数据的精度要求也就很高;而另一些数据本身的精度不可能很高,如不同土壤类型的面积,由于它们之间的界限是模糊的,所以面积也是相对的,因此精度要求不可能很高;有的数据的精度可以达到很高,但需要花费很多的人力、物力和时间,而生产上或应用上又不一定要求很高。因此,在实际应用中应根据具体需要来评定数据的质量。地球是一个复杂的系统,不少物体具有不确定性或模糊性特征。有些物体本身就没有明确的界限,它们是逐渐过渡的,在由量变到质变过程中,难以确定其边界线;有些虽然有明确的定义,但很难操作;有些数据是动态的,甚至是瞬间的。通过上面的分析,应该在地理信息描述中辨证地分析精度问题,既要追求很高的数据精度,又要避免“冗余”精度,以避免造成精度浪费。

数据的实效性与唯一性

地球系统的数据,有些具有明显的时效(时间)特征,有的则对时间的反应比较迟缓,例如土地利用图的时效性来说,随地区的差异在时间上有明显的变化;而相对来说地质图、地形图则没有明显的时效性。

在图形的时效性上,一般来说具有动态特征的数据,它们的时间有效性较短,相反则长。但从研究历史变化或发展过程来说,任何时间的数据都是有用的。所以不同时效性的数据集将根据其作用的不同来确定其重要性,而这些因素在元数据体系中都应有所反应。

另外,地球系统的数据有可派生数据和不可派生数据之分,而在数据集描述中应避免派生数据。如在气象和水文数据中,每天的降雨量是基本数据,或不可派生数据,而月平均降雨等都是派生的。因此,在元数据描述中,应只限于基础数据,而不应包括可派生数据。这样,便需要有专门的元素来描述数据集的这些特征,并需要对不同的计算公式等加以阐述。

数据精度的测试与报告

对于用户和数据生产者来说,所关心的数据质量是有一定联系的。数据集生产者必须使所生产的数据集满足制图规范,而用户则根据数据集的质量信息确定该数据集是否满足他们的应用需求。因此数据集生产者提供的数据集信息应是用户所关心的信息。因此,在数据集报告中应包括相应的精度测试方法及其测试结果等内容。