元数据:它是什么以及为什么需要它?


发布日期 : 2021-11-10 01:10:52 UTC

访问量: 254 次浏览

元数据是地理空间数据的重要组成部分。 了解如何捕获数据或捕获数据的意图有时比数据本身更有价值。

如果在地理空间行业工作,就会知道 shapefile 是离不开的 枯燥的数据传输文件。仔细观察,会看到,除了 shapefile (.shp)、 投影 (.prj)、属性数据库 (.dbf)、索引 (.shx) 和编码文件 (.cpg),还有另一个可能存在的文件-元数据文件 (.shp.xml)。

关于数据的数据

经常会被告知,元数据是“关于数据的数据”, 这听起来总是有点令人困惑。需要明确的是, 元数据提供了有关您提供的数据所包含内容的详细信息。 这可以与数据的范围/边界框一样小, 但如果遵循 ISO/INSPIRE 标准(稍后会详细介绍), 它应该包含更多信息,例如分辨率、比例、记录方法、 ISO 类型分类、ISO 主题分类、记录时间、 负责人和联系信息等详细信息。

从本质上讲,当收到某人的文件时, 不必发送包含一千个问题的电子邮件, 而是将其作为一个文件发送,该文件充分描述拥有的内容、 制作方式以及联系人以获取更多信息。当然, 所有地理空间数据都应该有元数据; 它是一个行业标准——ISO 19115 (2003) 和 ISO 19139。 但还有一些其他标准,如美国政府 FGDC、INSPIRE、 英国 GEMINI 和都柏林核心,仅举几例。

除了将标准插入到可能管理的数据目录中的复杂性之外, 填写也需要花费大量时间。曾经, 一个由五名 GIS(地理信息系统)员工组成的团队, 他们花了六个月的时间按照 INSPIRE 标准(这也涵盖了 ISO 19115) 来完成数据,出现了一些难题,因为许多 GIS 工作需要使用已知的 GIS 主要资源,然而,当它不包含元数据时会发生什么? 如何完成自己的元数据?此外,如果数字化快速边界或感兴趣的区域, 是否需要一个小时填写所有元数据?

需要明确的是,元数据提供了数据所包含内容的详细信息。 这可以与数据的范围/边界框一样小, 但如果遵循 ISO/INSPIRE 标准(稍后会详细介绍), 它应该包含更多信息,例如分辨率、比例、记录方法、 ISO 类型分类、ISO 主题分类、记录时间、 负责人和联系信息等详细信息。

重要组成部分

地理空间行业目前面临的最大问题是其发展速度有多快, 对数据的需求及其交付速度导致了捷径,这对地理空间标准不利。 如果产品经理必须在数据延迟还是元数据完成之间做出选择, 不难看出会发生什么。那些不处理或使用地理空间数据的 人会发现很难理解支持信息的重要性。

在过去的一年里,从个人的经验来讲, 从官方网站下载的数据和电子邮件中大约 60% 的数据 都包含某种形式的元数据,联系过的这些数据的许多所有者都没有很多所需的信息。

由此看来,元数据是地理空间数据的重要组成部分。 了解数据是如何捕获的或捕获数据的意图有时比数据本身更有价值。 提供给其他用户的任何数据都应包含元数据, 但质疑所需的详细信息量。观看当前的标准, 它接近小说的长度,可能会让新的地理空间用户感到非常困惑。

许多地理空间元数据标准是在十多年前编写的, 如果不是更长的话,今天有很多卓越的技术和功能可用, 就如 Astun Technology 的Jo Cook的演讲。 她已经研究了这个问题,并找到了自动化大部分元数据的方法, 让数据创建者有更多时间专注于重要任务。 我们认为她已经确定了现代复杂地图系统中主要缺失的部分。 如果地理空间软件提供商在元数据中添加了一些这种半自动化功能, 并且可能应用一点机器学习或人工智能来提供更短的元数据表单, 那么它可以为地理空间数据用户提供更多的热情, 并使表单填写更容易。

随着对更好、更复杂的地理空间数据的需求不断增加, 必须更轻松、更快速地填充元数据;它需要是一种填写的愿望, 而不是事后的想法。能够做到这一点的唯一方法 是在地理空间软件提供商的支持和国际标准的改进下。