基础数据库

(1)数据内容

基本数据库包括系统运行前收集的所有支持数据。数据的具体内容已经在数据分类和数据来源一章中进行了描述,可以归纳为以下几类。

(1)遥感影像数据:包括历史影像数据和按照一定监测周期更新的遥感影像数据。

(2)数字线划数据:矢量数据(当前专题地图和历史专题地图数据)、栅格数据、元数据等。入库前,数据以ArcInfoCoverage格式分帧或整体存储,采用地理坐标系。

(3)数字栅格地图数据:包括1:5万的扫描栅格数据和1:1万的基础地理图形数据。

(4)数字高程模型数据:塔里木河干流1 ∶ 1,000、“四源一干”地区1 ∶ 1,000,000数字高程模型。

(5)多媒体资料:照片、视频、录音、虚拟演示结果等多媒体资料的调查。

(6)属性数据:社会经济和水资源数据、水利工程数据、生态环境数据等。

(2)数据存储结构

1.栅格数据

栅格数据包括遥感影像、数字栅格地图、数字正射影像图、数字高程模型等。这些数据的存储结构基本相似,可以统一设计。遥感影像数据库与普通影像数据库在存储上存在一些差异。遥感图像作为不同条件下(如光谱辐射特性、微波辐射特性)传感器对地理空间环境的测量结果,必须结合同时获得的多幅图像才能被认为是对一定时间条件下环境的完整描述,也就是说,可能需要一个图像集合才能形成一幅图像的完整概念,并使其与语义信息相关联(洛瑞等,2000)。因此,遥感影像数据的存储结构模型必须能够描述若干影像(波段)之间的逻辑关系。使用ArcSDE进行数据存储时,系统可以自动建立影像(波段)之间的关系,并按照一定的规则存储在数据库系统中。

栅格数据将由Oracle数据库管理系统在后台存储。Oracle系统可以直接存储影像信息,具有很强的数据管理能力,可以实现栅格数据信息的快速检索和提取。数据引擎采用ArcSDE实现各种影像数据的存储。数据存储的关键是建立地图索引,本系统的数据存储按照地图编号、地图名称、采集时间等进行索引。

根据图形属性一体化的存储思想,栅格数据直接以大二进制格式存储,可以实现内容的快速检索和查询,根据索引表检索相关项后可以直接打开,提高了栅格数据的管理效率。

2.矢量数据

该系统采用图属一体化的思想,即将空间数据和属性数据合二为一,全部存在于一个记录集中,是目前非常流行的GIS数据存储方式。考虑到数据的具体情况,决定使用数据库来存储空间数据和属性数据。一些带有少量定型几何信息的地理要素,如水文站、河流、湖泊等。,使用图-属一体化的思想存储它们的信息,而与它们相关的大量多边属性信息,如水文信息,则存储在属性数据表中,并使用唯一标识符信息建立两个表之间的关联。

系统根据本系统中空间数据的特点,按照“数据库-子数据库-专题(基础数据)-图层-要素-属性”的层次框架构建空间数据库,按照统一的地理坐标系存储空间数据,实现地理实体/专题要素的分层叠加显示。

3.多媒体数据

Oracle系统可以直接存储图片和视频信息,具有强大的数据管理能力,可以实现多媒体信息的快速检索和提取。多媒体数据存储的关键是建立索引表。该系统中的多媒体数据存储按照类型、时间和内容等项目进行索引,并直接存储在Oracle数据库中。

存储多媒体数据时,多媒体内容可以与索引表结构集成,直接以大二进制格式存储。这种存储方式可以实现内容的快速检索和查询,根据索引表检索相关条目后可以直接打开多媒体内容,多媒体数据库也便于维护和管理。

(3)空间索引设计

1.向量空间索引

确定合适的格网级数和单元大小是建立空间格网索引的关键。网格太大,一个网格中有很多空间实体,查询检索准确率低。如果网格过小,索引数据会成倍增加,出现冗余,检索速度和效率会很低。每个数据层可以采用不同大小和级别的空间索引网格单元,但每一级的数量最多不能超过三个。索引模式设置遵循以下基本原则:

(1)对于简单元素的数据层,尽可能选择单级索引网格,减少RDBMS搜索网格单元的索引数量,缩短空间索引搜索的过程;

(2)如果数据层中元素的包装边界大小变化较大,应选择2级或3级索引网格;

(3)如果用户经常对图层进行相同的查询,最佳网格大小应为65438+平均查询范围的0.5倍;

(4)网格的尺寸不能小于元素封装边界的平均尺寸。为了减少每个网格单元具有多个元素封装边界的可能性,网格单元的大小应该是元素封装边界平均大小的3倍;

(5)网格单元的大小不是一个确定性的问题,需要多次尝试和努力才能得到好的结果。确定网格初值有一些原则,可以用来进一步确定最优网格尺寸。

SDE(Spatial Data Engine)是一种从空间管理角度出发的连续空间数据模型,它可以将地理要素的空间数据和属性数据集成到一个关系数据库管理系统中。关系数据库系统支持海量数据的存储,也可以实现空间数据的海量存储。空间数据可以分层,将一类具有共同属性的元素放在一层,每个数据库记录对应一层中的一个实际元素,避免了搜索整个数据表,减少了检索数据记录的数量,从而减少了磁盘输入/输出的操作,加快了空间数据的查询。

ArcSDE使用格网索引将空间区域划分为大小合适的正方形格网,记录每个格网包含的空间实体(对象)以及每个实体的打包边界范围,即空间实体周围左下角和右上角的坐标。当用户进行空间查询时,首先计算用户查询对象的网格,然后通过网格号快速检索到所需的空间实体。因此,确定合适的网格级数和单元大小是建立空间网格索引的关键。过大或过小都不合适,这需要多次尝试才能确定合适的网格大小,以保证所有单元格都能均匀落在网格中。利用ArcSDE的索引表创建功能,记录每个网格单元的实体分布,形成图层空间索引表。根据空间索引表,ArcSDE实现了空间数据的快速查询。

2.栅格数据的空间索引

通过建立多级金字塔结构实现栅格数据的空间索引。以高分辨率栅格数据为底层,逐层提取数据,建立不同分辨率的数据金字塔结构,逐层形成较低分辨率的栅格数据。这种方法通常会增加20%左右的存储空间,但可以提高栅格数据的显示速度。在搜索数据库时,调用适当级别的栅格数据可以提高浏览和显示速度。

(4)入库数据的验证

仓储数据的质量关系到系统评估和分析结果的准确性。生产中需要严格控制数据。根据数据生产过程,数据质量控制分为生产过程控制和结果控制。生产过程控制包括数据生产前期的质量控制和数据生产过程中的实时质量控制,结果质量控制是数据生产完成后的质量控制(裴亚波等,2003)。入库数据的核查主要是为了数据生产完成后的质量控制和检查。

1.标准化检查

(1)代码标准化:所有地理代码尽量采用国家标准和行业标准,如行政代码采用中华人民共和国行政区划代码国家标准。

(2)数据格式标准化:所有数据均采用标准交换数据格式,如矢量数据采用标准输出覆盖格式和E00格式。

(3)属性数据和关系数据字段的规范化:预先对所有属性数据和关系数据进行分类,设计字段的内容、长度和格式,在操作时严格执行。

(4)坐标系标准化:本系统中所有与空间有关的数据都采用统一的空间坐标系,即地理坐标系。

(5)精度标准化:所有数据按照数据精度和质量控制中要求的精度进行采集和处理。

(6)命名标准化:所有数据按照命名要求统一命名,便于系统查询。

(7)元数据的规范化:根据元数据标准的要求检查元数据。

2.质量管理

数据质量是地理信息系统成功的关键。对于关系数据库的设计,只要能保证表的实体完整性和引用完整性,并且能符合关系数据库的三大范式即可。对于空间数据库设计,不仅要考虑数据采样、数据处理流程、空间配准、投影变换等问题,还要对数据质量进行定量分析。

数据质量一般可以用以下几个方面来描述(吴芳华等,2001):

(1)精度:即测量值与真值的接近程度,可以用误差来衡量;

(2)精度:对现象描述的详细程度;

(3)不确定性:指一种无法精确测量的现象,当真实值不可预测或未知时,无法确定误差,因此用不确定性代替误差;

(4)兼容性:指在同一个应用程序中使用两个不同来源的数据的难度;

(5)一致性:指同一现象或相似现象在表述上的一致程度;

(6)完备性:指相同准确度和精度的数据在类型上和特定空间范围内的完备程度;

(7)可访问性:指获取或使用数据的容易程度;

(8)时效性:指数据反映客观现象现状的程度。

对数据质量进行评估后,塔里木河流域生态环境动态监测系统的所有数据都需要进行数据格式和坐标一致性检查,只有通过质量检查的数据才能入库。

3.数据验证

空间数据质量检查包括以下步骤:

(1)数据命名是否规范,是否按照设计要求命名;

(2)数据能否正常打开;

(3)投影方式是否正确;

(4)坐标系是否正确;

(5)纠错是否完成,拓扑关系是否建立;

(6)属性数据是否正确,包括字段设置是否按照设计进行,是否有空的属性记录,是否有属性错误记录等。

关系数据的质量检查包括以下步骤:

(1)数据命名是否规范,是否按照设计要求命名;

(2)数据能否正常打开;

(3)数据字段是否按设计要求设置;

(4)是否有空的属性记录;

(5)是否有属性错误记录。

属性数据验证主要采用以下三种方式:

(1)两项验证:将一些互不相关的数据输入两次,编写程序对两项的结果进行比较,找出结果不同的数据,检查正确的值并进行修正。

(2)折线图测试:对于一些相互关联的序列数据,比如人口统计数据,对于这类数据,编写程序将数据以折线图的形式显示在显示器上。数据序列一般有一定的规则。如果出现较大波动,此时就需要对数据进行检查和修改。

(3)计算验证:对于某些数据,按照一定的公式计算后,其结果与其他数据相关,如果某些数据的总和等于另一个数据,则编写程序计算这类数据,将计算结果与相关数据进行比较,找出结果不同的数据,检查正确值并进行修正。

图形数据的验证主要包括以下步骤(陈俊杰等,2005):

(1)图层验证:图形元素的放置图层是唯一的。对于仓储覆盖率数据,系统将根据层代码进行检查,以确保图形元素位于正确的层。

(2)代码检查:图形元素的代码是唯一的。对于仓储覆盖数据,系统会将仓储要素代码与要素表中的代码进行比较,以确保仓储数据代码的存在,防止非法代码入库。

(3)类型检查:对于接收到的数据,检查元素的类型是否与特征表中的类型一致,以确保图形元素在表中就位。例如,点元素、线元素和面元素只能分配相应的点、线和面代码,并且代码必须与要素表中的数据类型代码相同。

(4)范围检查:根据接收到的数据,确定大致范围(如X,Y坐标等。)的范围数据,并在接收数据之前将接收数据的大小与范围数据进行比较。如果接收到的数据在此范围内,将被接收,否则,将给出提示检查消息。

(5)数据仓库

1.遥感图像数据

利用空间数据引擎ArcSDE可以实现遥感影像数据在Oracle数据库中的存储和管理,影像数据入库时要添加相应的索引和影像描述字段。

遥感影像入库步骤:

(1)影像数据预处理:将塔里木河遥感影像数据库建成多分辨率无缝影像数据库系统,客观上要求数据库中的影像数据在几何空间和灰度空间保持一致。因此,在数据采集阶段,需要对图像数据进行预处理,包括图像几何校正、灰度拼接(无缝拼接)、正投影处理、投影变换等。

几何校正的目的是将校正后的影像重新定位到一种地图投影方式,适用于各种定位、测量、多源影像合成以及与矢量地图、DTM的嵌套显示和处理。几何校正大多采用二次多项式算法和双线性插值重采样方法进行图像校正。将经过校正的指定地理编码的图像按照多边形划分成需要拼接的子区域,并逐个嵌入指定的模板中。同时进行必要的配色,使整体图像色调一致,完成图像的几何拼接。然后采用金字塔图像数据结构和“由粗到细”的分层控制策略实现分步拼接。

数字正射影像图具有统一的大地坐标系、丰富的信息和真实的景观表达,很容易制作出“与比例尺无关”的多级金字塔结构影像。数字正射影像可以通过DTM和外方位元素的数字微分纠正获得,其基本参数包括原始影像和正射影像的比例尺、采样分辨率等。(方涛等人,1997)。

投影变换需要根据数据库系统定义的标准转换到统一的投影系统中。

(2)影像数据压缩:随着传感器空间分辨率的提高和对遥感信息需求的增加,获取的影像数据量呈几何级数增长。如此庞大的数据会占用大量的存储空间,给图像的存储和传输带来不便(葛勇等,2000)。目前系统处理的遥感影像数据已经达到数百千兆,单个文件最大影像数据达到2G,调用和显示时非常慢。压缩和存储图像数据将大大提高图像访问的效率。该系统使用ArcSDE软件提供的无损压缩模式来压缩输入图像。

(3)影像导入:可通过ArcSDE或存储程序导入遥感影像,填写相关索引信息。大规模的遥感影像数据会被自动分成若干个瓦片进行存储。

(4)影像金字塔构建:利用ArcSDE提供的金字塔构建工具,在入库时自动生成影像金字塔,用户只需选择相应的参数设置即可。图像金字塔及其层次图像按照分辨率进行存储和管理。最低分辨率最高,数据量最大。分辨率越低,数据量越小。这样,不同分辨率的遥感影像就形成了一个塔式结构。这种影像金字塔结构建立的遥感影像数据库,便于组织、存储和管理多尺度、多数据源的遥感影像数据,实现了跨分辨率的索引和浏览,大大提高了影像数据的浏览和显示速度。

2.数字线条画

纸质地图经过数字化、配准、校正、分层、拼接后,生成标准分幅、拼接存储的数字矢量地图,图形数据即可入库。

(1)分幅矢量图形数据和接片表:根据图形比例尺、张数、制作时间、图层等。,通过入库程序导入数据库,同时导入地理信息对应的属性信息,建立空间信息与属性信息的关联。

(2)镶嵌矢量图形数据:根据图形比例尺、制作时间、图层等。,通过入库程序导入数据库,同时导入地理信息对应的属性信息,建立空间信息与属性信息的关联。

3.栅格数据

纸质地图经过数字化、配准、校正、分层、拼接,生成标准分幅、整体存储的数字栅格地图,然后图形数据入库。

(1)分帧光栅图形数据及图幅接合表:以图形比例尺、图幅号、制作时间等方式导入数据库。

(2)整体栅格图形数据:根据比例尺和制作时间,通过入库程序导入数据库。

4.数字高程模型

(1)数字高程模型数据与图幅联表:根据图形比例尺、图幅号、制作时间通过入库程序导入数据库。

(2)镶嵌数字高程模型数据:根据比例尺和制作时间,通过入库程序导入数据库。

5.多媒体数据

多媒体数据入库可以根据多媒体数据库内容的需要对入库数据进行预处理,包括音视频信息的录制和编辑、文本编辑、颜色匹配等。多媒体信息的处理需要使用特定的工具和软件进行编辑。由于音频信息和视频信息数据量巨大,需要数据压缩技术来存储多媒体数据。现在很多商业软件都可以直接存储或播放压缩的多媒体数据文件。这里主要考虑根据数据显示质量的要求选择不同的存储格式。图4-2显示了各种多媒体数据的处理流程。

图4-2多媒体数据处理流程图

6.属性资料

收集的社会经济、水利工程、生态环境等属性数据。进行分析整理,输入计算机,最后由程序计算后存入数据库。具体流程如图4-3所示。

图4-3属性数据入库流程图