清理原始地质资料的经验和建议
(天津地质调查中心)
摘要自2010起,我中心作为原始地质资料清理试点单位,根据相关要求,开始对我中心原始地质资料目录进行清理。本文介绍了作者在开展这项工作中总结的一些经验和问题。
关键词:原始地质资料清理总结
为全面了解原始地质资料的管理和保存状况,建立原始地质资料目录数据库,提高原始地质资料的管理和服务水平,促进原始地质资料为经济建设服务,根据中国地质调查局发展中心制定的原始地质资料清理任务要求,本中心原始地质资料目录从2010年9月1日开始清理。目前已清理原始地质资料文件级目录200余个,文件级目录17000余个。在工作过程中,我总结了一些经验,也发现了一些问题,在此进行探讨。
原始地质资料清理工作主要依据国家地质档案馆制定的《原始地质资料归档整理规则》和《归档类别细则》、《原始地质资料清理指南》。清理软件采用“原始地质资料清理登记管理系统”。
1原始地质数据清理流程
1.1数据的选择
中心保存的原始地质资料由两部分组成:一是大规模调查形成的原始地质资料,主要以地质调查和矿产资源评价为主;二是本单位成立以来形成的原始地质资料,主要以地质科学研究为主。从归档时间上来说,都是1987之后归档的原始地质资料。从资料的专业范围来看,包括区域调查、矿产勘查、水力环境、物理化学远程、地质科学研究、技术方法、数据库建设以及少量国外地质及相关专业的动态介绍。从投资者的角度来看,包括自然基金、横向基金和一般项目。
1.2收集原始文件目录
从案卷中逐一复制选定的原始数据归档目录,并将其绑定为一个。这是最耗费时间和精力的工作。90年代以前电脑还没有普及,归档的文件目录一般都是手写的,所以很多目录都是潦草的,没有专业知识很难识别专业的文字。因此,这部分工作必须由具有地质学专业基础的科研人员进行复核,以尽量减少地质术语的错误。
根据《原始地质资料归档规则》和《归档类别细则》整理原始地质资料目录,并将数据录入批量导入模板文件(excel格式)。一般来说,所有的档案都有档案目录,但由于是不同时期形成的档案,其目录是按照不同的归档规则进行编目的,这与现行的归档规则不一致,特别是缺乏“归档类别替代”。还需要对原始地质资料保存单元进行编码和分类。所以这方面需要投入大量的工作。
1.3创建excel工作表
根据系统描述规则和数据库中的各个代码表,整理出原始地质数据文件目录。首先将不同存储类型的原始地质数据文件目录转换成excel格式,然后将文件级目录数据按照文件级录入规则排序,将文件级目录数据按照文件级录入规则排序。将文件目录逐一录入表格,做好“原始地质资料清理登记管理系统”的录入准备工作。
2.建立数据库
由于需要清理的原始地质资料文件和文件目录较多,在集中清理过程中使用“原始地质资料清理登记管理系统”逐项录入费时费力,因此我们采用数据批量导入的方法完成目录存储。根据“原始地质资料清理登记管理系统”的数据库创建批量导入模板(excel工作表),通过导入模板完成数据的批量存储。具体流程如下:
图1数据整理和数据库建立流程图
(1)研究“原始地质资料清理登记管理系统”数据库表结构,明确数据表之间的关系,为批量导入记录做前期准备。
(2)导出“原始地质资料清理登记管理系统”数据库表中的单位表(SubOrg)、文件级信息表(YSZLBase)和文件级信息表(YSZLDetail),生成批量导入模板文件(excel格式)。
(3)根据系统描述规则和数据库中的代码表,整理出原始地质资料文件目录。将不同存储类型的原始地质资料文件目录转换为excel格式,文件级目录数据按照文件级录入规则排序,文件级目录数据按照文件级录入规则排序。
(4)将排序后的数据分别导入到文件级导入模板文件和文件级导入模板文件中,将各个公司的信息导入到公司导入模板文件中。
(5)将整理后的数据导入清洗软件的数据库中。
最后将数据批量导入“原始地质资料清理登记管理系统”的数据库,形成“原始地质资料数据库”。
3 .关于修订数据类别的建议
总的来说,该表侧重于地区调整,而不是科学研究。学科分类过于粗糙,尤其是没有按照构造、地层学、古生物学等传统学科分类。
在区域调查(10)中,区域地质调查(11)和区域矿产调查(12)是前期地质工作的重点,有各种比例尺的图件,建议进一步细分。区域物化探(13)与物化探(50)重复,建议明确物化探(50)定义为研究。再者,表中没有油气的描述,建议在区域调查(10)中增加此项。
矿产勘查(30)似乎强调特殊矿产勘查。因此,建议将其定义为“专项矿产勘查”,以区别于区域矿产调查(12)。同时,将描述中的“用地质手段查证物化探异常”归入(54)。
地质科学研究(60)中,建议按照传统学科进一步细分,如构造、地层学、古生物学等。
4 .对原地质资料保管单位编码规则的修改建议
在“原始地质数据清理指南”中,似乎关于“原始地质数据存储单元编码规则”的部分强调了数据是否已经本地化的问题,但没有考虑地质数据存储单元的位置,这对读者来说是有意义的,因为它可以使他们快速知道数据现在在哪里。因此,作者建议适当调整这种编码规则,使读者既能知道信息现在在哪里,又能知道信息现在在哪里。
在该编码规则中,要求编码长度为十位数字,如下所示:
第一位数字表示是否本地化,“S”表示本地化,“W”表示非本地化。在我看来,似乎没有必要做这样的区分。因为本地化和非本地化只有行政意义,而提及信息保存单位似乎没有意义。我们提供给读者只是为了让他们知道信息保存在哪里。而且原地矿部还有一部分单位不确定是否已经本地化,其他系统的单位就更难发现是否已经本地化。所以建议取消这部分。或者改为“S”表示原地矿部系统单位,“W”表示其他系统单位。
第二、三位“代表国家级、省级、非属地化集团公司(总公司、股份公司)”。
具体编码要求为:国家地质资料馆用00表示,各省在全国行政区划代码表中用该行政区划代码的前两位表示,如安徽省用34表示(见表1)。
表1中华人民共和国行政区划代码(GB/T 2260—999)
其他非本地化集团公司代码见表2。
表2其他非本地化集团(公司)代码
比较上面的表1和表2,很明显有些代码是重复的。因为它把国家单位和省级单位混在一起,第四第五位涉及省级单位,建议从第二第三位取消省级部分。
第4、5位表示类别和行业,共列出11项:00省厅,01地质调查,02石油,03冶金,04有色,05核工程,06武警,07煤炭,08化工,09建材,99其他(以上类别除外)一般来说,这是按行业划分的。笔者认为这一项可以进一步完善:①明确规定“省厅”是指地勘系统的省厅,或者包括保管地质资料的其他省厅,如国土所。(2)降低“其他”的承载量,因为这一项可以包括环境、地震、高校等。如果将这三项分别列出,行业的特点会更加清晰,有利于参考。
第6、7位更复杂:①表示非属地化集团公司(总公司、股份公司)直属地质资料保管单位;如果直属单位没有局级只有司级,第6、7位用00表示。(2)表示省(自治区、直辖市)政府(或国土资源局)局级地质资料保管单位,如果是社会投资者或没有局级但只有处级地方管理单位,第6、7位用00表示。
根据这两个规则,第6位和第7位多数情况下可以编码为“00”。笔者认为,这样一来,设置这两个数字的意义就失去了。因此,建议是否按照地质资料保管单位所在的行政区划代码进行编码,有利于了解地质资料保管单位的具体位置。
第8、9、10位“代表本地或非本地地勘单位(按顺序编号)或社会投资者”。按照作者的理解,这是对所有单元的顺序编号。而且好像全国所有单位都是有编号的。由于地勘单位数量多,会有比较大的数量。如作者建议第6位和第7位按地方行政区划编码,能否沿此线将一个行政区划(可以以地市级为准)内的所有地质资料存储单元依次编码?
再者,根据上述编码规则,只有第四位和第五位表示类别和行业,其他都与数据的位置有关。好像第4名和第5名可以放在最后作为第9名和10名。那么,这个编码规则有如下顺序:国家单位-省级单位-具体存储单位-数据类别和行业。
5关于数据库的建议
(1)建议在档案级基础信息表中增加“地质地名”。在基本信息录入项中,虽然使用了初始经纬度和行政区划项来确定工作区域,但有些项目尤其是一些综合性研究项目的工作范围并不能很好地确定。如燕山构造带包括东经110o ~ 12o,北纬38o ~ 42o范围。如果搜索者输入北纬39o或东经115o,可能达不到检索目的。如果加上“地质地名”,如燕山构造带地质工作中常用的,如承德、蓟县等,可能有利于更好地描述原始数据的工作区域,有利于快速查找和定位原始数据。
(2)建议添加“关键词”。现代科技文献中,要求作者描述3 ~ 8个关键词进行文献检索。而且搜索者还可以通过关键词大致了解文章内容。所以,关键词有画龙点睛的作用。原始地质资料也是文献的一种,但由于历史原因,很多原始地质资料没有关键词,给地质学家理解文献内容和检索增加了难度。如果在基础信息的录入中加入这方面的内容,可能有助于原始地质资料的利用。
3)在原始数据清理过程中,往往会在短时间内录入大量数据,建议在清理软件中增加批量数据导入的功能,提高原始地质数据清理和建库的效率。
6结论
根据国家地质档案馆制定的相关细则和工作指南,原始资料清理工作取得了进展,总结了工作中遇到的问题和经验。在此基础上,继续清理原始资料,补充原始地质资料目录数据库,可以进一步提高原始地质资料的管理和服务水平,促进原始地质资料为经济建设服务。