比特世界

比特世界

地理信息系统以数字世界表示自然世界,现实世界与数学模型之间的关系见图2-15。

在计算机中,现实世界是以各种符号形式来表达和记录的,计算机在对数字和符号这些符号进行操作时,又将它们表示为二进制形式(比特世界)。因此,基于计算机的地理信息系统不能直接作用于现实世界,必须经过对现实世界的数据描述这一步骤。模型是对现实世界的简化表达,是将系统的各个要素通过适当的筛选,用一定的表现规则描写出来的简明的映象。

../../_images/img_15.png

现实世界与数学模型的关系

一幅地图是一个符号模型,因为它是通过制图学家处理后得到现实世界的简化描述;存储数字地图的计算机文件也是一种符号模型,它以数字代码来表现图形符号。一幅数字地图的产生不仅需要选择所要表现的物体,还要进一步考虑如何对表达它们的数据进行组织。如果数据的组织规则没有很好地建立起来,则一幅数字地图除了对生产这些数据的个人或组织有用以外,对于其他人是没有用的。

数据是对现实世界状况的数字符号记录,信息是经过重新组织的,能揭示现实世界内在机理的并有利于研究工作的数据。如果数据不以空间属性表来组织,则很难从空间数据中抽取出空间信息。由于计算机的数字化特征,数据项必须是离散的以便于进行数字处理和操作,因此,地理空间也必须离散化的表达。数据建模是指把现实世界的数据组织为有用且能反映真实信息的数据集的过程。根据一定的方案建立的数据逻辑组织方式叫数据模型。数据建模过程分为三个步骤:首先,选择一种数据模型来对现实世界的数据进行组织;然后,选择一种数据结构来表达该数据模型;最后,选择一种适合于记录该数据结构的文件格式。可见,一种空间数据建模可能有几种可选的数据模型,而每一种数据结构又可能有多种文件格式进行存储。空间数据可依据它们的采集方式、存储方法、使用目标等,用不同的数据模型进行组织。如GIS中最常用的数据组织方式为矢量模型和栅格模型。在矢量模型中,用点、线、面表达世界,在栅格模型中用空间单元或像元来表达世界。

模型的作用

在地理信息系统中,模型,尤其是数学模型起着十分重要的作用。由于模型是对客观世界中解决各种实际问题所依据的规律或过程的抽象或模拟,因此能有效地帮助人们从各种因素之间找出其因果关系或者联系,有利于问题的解决。模型的建立是数学或技术性的问题,但它必须以广泛、深入的专业研究为基础,专业研究的深入程度决定了所建模型的质量与效果,而模型的质量和数量又决定了系统中数据使用的效率和深度。大量模型的发展和应用,实际上集中和验证了该应用领域中许多专家的经验和知识,这无疑成为一般地理信息系统向专家系统发展的基础。

GIS空间数据建模

GIS是专门用于采集、存储、管理、分析和表达空间数据的信息系统,它既是表示、模拟现实空间世界和进行空间数据处理分析的工具,也是一门关于空间信息处理分析的科学技术。就GIS的工具特性而言,它是为人们采用数字形式表示和分析现实空间世界提供了一系列空间操作和分析的功能,包括综合地存储管理人们研究和解决空间问题所需的各种空间数据;根据用户的要求查询有关的空间分布信息,进行各种统计量算、列表制图;根据规划、管理、生产的需要,进行多因素的综合研究、决策方案的模拟优化等。所以,GIS一方面应为用户采用数字形式表示和分析空间现象或问题提供空间数据建模及分析操作的手段,另一方面应向用户提供友好的使用界面,便于用户进行空间数据建模、查询、分析等。

空间数据建模的基本任务是,针对所研究的空间现象或问题,描述GIS的空间数据组织,设计GIS空间数据库模式,这包括定义空间实体及其相互间关系,确定数据实体或目标及其关系,设计在计算机中的物理组织、存储路径和数据库结构等。这项工作是以空间数据模型的理论为指导的。空间数据模型是关于现实世界中空间实体及其相互间联系的概念,为描述空间数据组织和设计空间数据库模式提供了基本的方法。

一般而言,GIS空间数据模型由概念数据模型、逻辑数据模型和物理数据模型三个有机联系的层次所组成。其中概念数据模型是关于实体及实体间联系的抽象概念集,逻辑数据模型是表达概念数据模型中数据实体(或记录)及其间关系,而物理数据模型则是描述数据在计算机中的物理组织、存储路径和数据库结构,三者之间的相互关系如图2-16所示。

../../_images/img_24.png

空间数据模型的三个层次

GIS空间数据模型的概念与分类

GIS空间概念数据模型

由于职业、专业等的不同,人们所关心的问题、研究对象、期望的结果等方面存在着差异,因而对现实世界的描述和抽象也是不同的,形成了不同的用户视图,称之为外模式。GIS空间数据模型的概念模型是考虑用户需求的共性,用统一的语言描述和综合、集成各用户视图。目前广为采用的数据模型是基于平面图的矢量数据模型和基于连续铺盖的栅格数据模型。

空间逻辑数据模型

逻辑数据模型是根据前述的概念数据模型确定的空间数据库信息内容(空间实体及相互关系),具体地表达数据项、记录等之间的关系,因而可以有若干不同的实现方法。一般来说,可将空间逻辑数据模型分为采用结构化模型和面向操作的模型两大类。

1)结构化逻辑数据模型

结构化模型是显式表达数据实体之间关系的树形结构。其中的层次数据模型是按树型结构组织数据记录,以反映数据之间的隶属或层次关系。网络数据模型是层次数据模型的一种广义形式,是若干层次结构的并,其优点是能反映现实世界中极为常见的多对多的联系,缺点是复杂。一般而言,结构化模型能直接地反映现实世界中空间实体之间的联系。

2)面向操作的逻辑数据模型

关系数据模型是用二维表格表达数据实体之间的关系,用关系操作提取或查询数据实体之间的关系,因此称之为面向操作的逻辑数据模型。其优点是灵活简单,但表示复杂关系时比其它数据模型困难;当数据构成多层联系时,存储空间利用效率较低。当前的一种发展趋势是将两者的优点集中起来,形成新的或改进的逻辑数据模型,如扩展的网络模型。

物理数据模型

逻辑数据模型并不涉及最底层的物理实现细节,但计算机处理的是二进制数据,必须将逻辑数据模型转换为物理数据模型,即要设计空间数据的物理组织、空间存取方法、数据库总体存储结构等。

1)物理表示与组织

层次逻辑数据模型的物理表示方法主要有物理邻接法、表结构法、目录法。网络数据模型的物理表示方法主要有变长指针表、位图法、目录法等。关系数据模型的物理表示是用关系表进行的。物理组织主要是考虑如何在外存储器上以最优的形式存放数据,通常要考虑操作效率、响应时间、空间利用和总的开销。

2)空间数据存取

数据库的“存”是指从内存写一块到外存,“取”指从外存写一段到内存。常用的存取方法有:

第一种,文件结构法:包括顺序结构(如二分查找,插值查找)、表结构(线性表,倒排表)和随机结构。

第二种,索引文件:它是提高数据存取效率的基本方法。对索引的插入、删除等只涉及到索引记录本身,而对数据记录的操作要看具体的数据组织策略。如果索引本身很大的话,就要对索引文件再索引,建立多级索引,如B树、B+树等。B树是基于主关键字的索引,若要根据次关键字进行索引,必须建立倒排索引表。但是,如果这种基于次关键字的搜索是主要操作的话,这类索引就不适合了。

第三种,点索引结构:由于B树在进行基于次关键字的搜索时是不适合的,为此,将空间定位数据及其属性看作是多维空间中的点,采用栅格索引、KD树、四叉树、R树等多维点索引结构进行索引。目前空间存取方法及查询优化仍是GIS研究中的一个重要的课题。