访问量: 103 次浏览
在论及数据质量的好坏时,人们常常便用误差或不确定性的概念, 数据质量问题在很大程度上可以看作数据误差问题, 而描述误差最常用的概念是准确度和精密度。
(1)误差:误差反映了数据与真实值或者大家公认的真值之间的差异, 它是一种常用的衡量数据准确性的表达方式。
(2)数据的准确度:数据的准确度被定义为结果、 计算值或估计值与真实值或者大家公认的真值的接近程度。
如果两地间的距离为100km,从地图上量测的距离为98km, 那么地图距离的误差为2km;若用GPS量测并计算两点间的距离得99.9km, 则GPS的测距误差为0.lkm,因而GPS比地图鼋测距离更准确。
(3)数据的精密度:数据的精密度指数据表示的精密程度, 亦即数据表示的有效位数。它表现了测量值本身的离散程度。 由于精密度的实质在于它对数据准确度的影响。 同时在很多情况下,它可以通过准确度而得到体现, 故常把两者结合在一起称为精确度,简称精度。
如对同样两点,用GPS测量可得9.903km, 而用工程制图尺在1:100000地形图上量算仅可得到小数点后两位, 即9.85km。9.85km比9.903km精度低, 但精度低的数据并不一定准确度也低。 如在计算机中用32bit实型数来存储0~255范围内的整数, 并不能因为这类数后面带着许多小数位而说这类数比仅用 8bit的无符号整型数存储的数更精确。它们的准确度实际是一样的。 若要测地壳移动,用精度仅在2~5m的GPS接收机进行测量当然是不可能的, 需要用精度在0.00lm量级供大地测最用的GPS接收机。
(4)不确定性:不确定性是关于空间过程和特征不能被准确确定的程度, 是自然界各种空间现象自身固有的属性。在内容上, 它是以真值为中心的一个范围,这个范围越大,数据的不确定性也就越大。
不确定性还没有一个统一的定义,其含义比较广泛, 数据的误差、数据和概念的模糊性及不完整性都可视作不确定性问題的内容。 不确定性可以看作一种广义的误差,包含了可度量和不可度量的误差, 也包含了数值和概念上的误差。
当真值不可测或无法知道时,我们就无法确定误差, 因而用不确定性取代误差。统计上,用多次测量的平均来计算真值, 而用标准差来反映可能的误差大小。因此可以用标准差来表示测量值不确定性。 然而欲知标准差,就需要对同一现象做多次测量。 所以要知道某测量值的不确定程度,需要多次测量, 而称一次测量的结果为不确定的。例如,由于潮汐的作用, 海岸线是某一瞬间海水与陆地的交界。 它是一个大家熟知的不能准确测量的现象, 我们称测量得的海岸线长度为不确定的。 其实造成数据不确定性的原因不仅限于真值的不可测或测不准, 也可能是由于测a对象的概念模糊所致。如高密度住宅或常绿阔叶林, 当地图或数据库中出现这类多边形时,我们无法知道住宅密度究竟多高, 该处常绿阔叶林中到底有哪几种树种,而只知道一个范围, 因而这类数据是不确定的。一般而言,从大比例尺地图上获得的数据, 其不确定性较小比例尺图上的小, 从高空间分辨率遥感图像上得到数据的不确定性较低分辨率数据的小。
(5)相容性:指两个来源的数据在同一个应用中使用的难易程度。 例如两个相邻地区的土地利用图,当要将它们拼接到一起时, 两图边缘处不仅边界线可良好地衔接,而且类型也一致, 称两图相容性好。反之,若图上的土地利用边界无法接边, 可见两个城市的统计指标不一致也可造成所得数据无法比较致使数据不相容。 这种不相容可以通过统一分类和统计标准来减轻。 另一类不相容性可从使用不同比例尺的地图数据看到, 一般土壤图比例尺小于1:10000,而植被图则在1:15000至1:50000之间, 当使用这两种数据进行生态分类时,可能出现两种情况: 一是当某一土壤图的图斑大得使它代表的土壤类型在生态分类时可以被忽略; 二是当土地界线与某植被图斑相交时,它实际应该与植被图斑的部分界线一致。 这种状况使得本该属于同一生态类型的植被图斑被划分为两类, 造成这种状况的原因可能是土壤图制图时边界不准确, 或由于制图综合所致。显然,比例尺的不同能够造成数据的不相容。 当用遥感影像更新林业图时, 虽然原来的林业图可能是从航空像片判读得来的, 如果遥感影像的几何准确度在林业图的几何准确度范围之内, 而遥感图像上所得到的森林类型、 郁闭度级别和树木大小级别与林业图一致而且准确度在可接受的范围内, 则称从遥感图像上得到的林业图更新数据与原林业图相容。 如果两种用不同方法制作的林业图中的一个图的分类体系 可以转化成另一个图的分类体系,那么从使用后一个图的角度看, 前一个图与后一个图是相容的。反之不然。
(6)—致性:指对同一现象或同类现象的表达的一致程度。 如同一条河流,在地形图上和在土壤图上形状不同, 又如同一行政边界在人口图和土地利用图上不能重合, 这些均表示数据的一致性差。又如,在同一地形图上, 同类地形起伏和地貌状况,等高线的疏密和光滑程度有所不同。 这或是由同一制图者对等高线的制图综合标准不一或是 两个不同制图者的制图综合标准有出人造成的。 再如水系图与森林图叠加后发现,森林与湖面重咨, 这在逻辑上是不一致的,造成这一状况的原因要么是某图的数据坐标有偏差, 要么是制图综合程度不一致。逻辑的一致性, 指描述特征间的逻辑关系表达的可靠性。 这种逻辑关系可能是特征的连续性、层次性或其他逻辑结构。 例如,水系或道路是不应该穿越一个房屋的; 岛屿和海岸线应该是闭合的多边形,等高线不应该交叉等。 有些数据的获取,由于人力所限,是分区完成的,这在时间上就不一致。
(7)完整性:指具有同一准确度和精度的数据在类型上和 特定空间范围内是否完整的程度。一般来说,空间范围越大, 数据的完整性可能就越差。数据不完整最简单的例子是缺少数据。 如计算机从GPS接收机传输位置数据时,由于软件受干扰的缘故, 只记录下经度而丢失了纬度,以至造成数据不完整。 另外由于GPS接收机无法收到四颗或更多的卫星信号而 无法计算高程数据也会造成数据不完整。 又如某个应用项目需要1:50000的基础底图, 但现有的地图数据只覆盖项目区的一部分,底图数据便不完整。 这时可用更大比例尺的地图填补缺少1:50000比例尺地图的地区。 再如,生态类型制图需要地形髙程、坡度、坡向植被覆盖类型、 气温、降雨和土地等数据。 缺少上述任一方面的数据对于生态分类都是不完整的。
(8)可得性:指获取或使用数据的容易程度。 保密的数据按其保密等级限制使用者的多少, 有些单位或个人无权使用;公开的数据则按价决定可得性。 太贵的数据可能导致潜在用户另行搜集,造成浪费。
(9)现势性:指数据反映客观现象目前状况的程度。 不同现象的变化频率是不同的,如地形、 地质状况的变化一般来说比人类建设要缓慢, 地形可能会由于山崩、雪崩、滑坡、泥石流、 人工挖掘及填海等原因而在局部区域改变。 但由于地图制作周期较长, 局部的快速变化往往不能及时地反映在地形图上, 对那些变化较快的地区,地形图就失去了现势性。 城市地区土地覆盖变化较快, 这类地区土地覆盖图的现势性就比发展较慢的农村地区会差些。 地形图上记录着所用航空像片的获取年代。 若又用其他数据进行过修改(一般是较新的航空像片), 也应记录于上。开发数据库时, 应该记录数据的采集时间及其处理方法和过程, 这便可做为数据的档案。谈到现势性差的数据, 我们或许会想到可将它们做为历史资料与新采集的数据进行比较, 以确定一定时间间隔内发生的变化。这时应注意历史数据的时间一致性问题。 由于历史数据采集方法落后,有时一个地区的数据需要花费几年时间来收集, 而哪些数据究竟采自哪年又不清楚。如新数据是在某一个较短时间内完成的, 这两种数据经比较所得到的变化数据在时间上也存在着不一致现象。
可见数据质量的好坏与上述种种数据的特征有关。 这些特征代表着数据的不同方面,它们之间有联系, 如数据现势性差,那么用于反映现在的客观现象就可能不准确。 数据可得性差,就会影响数据的完整性。数据精度差,则数据不确定性就高。