利用地质学与大数据的结合,开展对地质数据的综合研究和应用,拓展了地质学的认知空间,提升了获取地质学新知识的能力。相比大气科学、海洋科学、遥感科学以及全球变化等地学大数据的研究,地质学大数据的研究起步较晚,由于缺乏顶层设计和基本规划,地质大数据中心建设薄弱。本文着眼于我国未来地质学发展,在分析地质大数据特点及国内地质大数据研究现状的基础上,阐述地质大数据拟研究的前沿科学问题,提出了未来中国地质大数据发展战略目标,探讨了地质学大数据发展的主要内容和解决途径。
地质大数据的特点
地质大数据是通过露头地质观测、勘查工程、地球物理探测、地球化学探测、遥感和物理测试、化学分析等手段采集到的一种科学大数据,涉及地球从内到外的各个圈层,涉及地球形成与演化的历史,涉及地球的物质组成及其变化,涉及矿产资源的形成、勘查与开发利用,涉及人类环境的破坏与修复等。
地质大数据具有传统大数据的“4V”特性,即数据量大(volume)、类型繁多(variety)、速度快时效高(velocity)、价值密度低(value),同时还具有科学大数据的“三高”特点,即高维度(highdimension)、高计算复杂性(highcomplexity)和高不确定性(highuncertainty),且由于地质对象的发展演化时空范围庞大、地质作用影响因素众多,这种高维度、高计算复杂性和高不确定性特点则更加显著。地质大数据的特点主要表现在以下4个方面。
多源(元)异构性
地质数据的采集平台和手段繁多,不同手段获取的数据也具有不同的数据组织管理形式。例如:野外露头描述数据、钻孔岩芯描述数据、各种地质报告文档数据,以及大量野外填图、素描和照片,遥感获取的影像数据,地质灾害监测获得实时点位数据等。有的数据是以纸质形式存储和管理,有的经过结构化转换汇聚GIS并入库存储。不同的数据组织方式形成了不同的数据结构,对同一地质本体的描述也因空间基准和时空尺度存在差异而形成语义鸿沟。不同的数据采集方法,多角度的描述,造成了地质大数据的严重异构和多模态。
复杂性与模糊性
地球是一个复杂的巨系统,地质数据的参与在一定程度上降低了该系统的复杂度,使建模和求解成为可能。然而由于地球各圈层因素相互作用,各类地质过程本身具有高度的复杂性,人类对于许多地质规律的解释和结论还存在争议。再加上地质数据对描述对象的定量化困难,决定了地质数据分析、建模和计算的困难程度。大数据的技术取向之一是“重关联不重因果”,我们不可能仅通过数据就搞清楚地质现象发生的机理,且采集全球样本数据到现阶段还无法实现,因此地质大数据分析的结果大多是模糊不确定的。
地质体的全球性与国家利益
地质体和地质单元的分布不以国家界限为界限,地质资源的分布不以国家和人口的需求而分布。这就造成“国家利益”干预造成的全球数据库建设的困难。
地质大数据研究进展
地质大数据的存储管理
地质学发展至今积累了大量的地质资料数据,随着地球信息探测技术的迅速发展,又有源源不断的新的地质数据快速产生。地质大数据不仅有定性、定量数据,还包括文字说明,甚至是地质图件或者是地质工作者在工作中留下的视频、音频文件等资料,而长期的目录文件存储方式极大地降低了数据查询、检索、统计、更新、挖掘等操作效率,导致数据服务能力低下[3]。因此,构建一套能够有效地实现结构化、半结构化和非结构化数据一体化、静态数据与动态数据一体化、地质数据与地质模型一体化存储管理的地质信息系统,对于完成海量地质资料稳定、高效地存放与读取就显得十分重要。
目前已有学者提出进利用云平台、Hadoop和NoSQL等技术,借鉴实时GIS时空数据模型,实现对地质时空大数据模型的动态管理。Hadoop是目前大数据存储与处理的标准平台,可以通过MapReduce支持大规模数据的并行处理。而NoSQL数据库使用分布式节点集动态处理负载。采用分布式文件系统技术可以对地质大数据进行存储并提高数据的容错能力与可靠性。例如中国地质调查局发展研究中心国土资源部地质信息技术重点实验室研发的中国地质调查云平台,就是在这种框架下建立的非结构化地质数据存储组织模式,通过改变非结构化数据的存储、阅读、搜索和应用模式,为智能地质调查提供精确、快速服务奠定了基础。
地质大数据的挖掘分析
大数据时代下的3个重要技术取向是:要全体不要抽样;要效率不要绝对精确;要关联不要因果。这迫使我们从数据的类型、数据运维以及大数据带来的挑战性这3个维度重新思考数据分析。周永章等认为大数据与数学地球科学的核心应用技术应该包括高维数据降维、图像数据处理、无限数据流挖掘、机器学习、关联规则算法与推荐系统算法等。
地质大数据的应用服务
地质大数据不仅改变了地质学家研究科学问题的思维范式,也给以数据分析为基础的地质行业带来了技术革新。地质大数据在各领域数据化水平的提高,有效地打通了信息孤岛,使定量化分析能够进一步推进。地质大数据的应用服务主要体现在以下5个方面。
基础地质调查。《国土资源“十三五”科技创新发展规划》指出要推进数字地质调查系统向智能化方向发展,逐步实现地质数据快速采集、实时汇聚、高效分析处理与建模,推动大数据技术支撑下的智能地质调查和服务模式创新,深化地质填图、矿产地质调查、油气地质调查、海岸带综合地质调查等领域的应用。
如何将分布式的数据云存储、云管理和云服务体系应用在我国各类基础地质调查数据库,实现海量、碎片化、非结构化与多样性的数据高效快速存储,是大数据时代基础地质调查研究的热点。此外,我国正在开展数字地质调查,中国地质调查局开发的“地质云1.0”已经在2017年正式发布并上线服务。该系统面向各类地质调查专业人员提供基础地质、矿产地质、水工环地质、海洋地质等多类专业数据共享服务;面向社会公众提供多类地质信息产品服务。升级完善的智能地质调查系统已在基础地质和矿产地质调查领域示范应用。
国土资源管理。国土资源部门在多年的信息化建设实践中积累了海量的土地数据,进而提出了国土资源全尺度数据整合与大数据构建技术。2016年国土资源部提出要持续完善国土资源“一张图”数据资源体系,构建统一的国土资源数据共享和开放平台。其中大数据采集与分析技术成为构建决策支持系统、智库信息化工作平台,逐步形成信息化条件下的新型“互联网+”智库运行体系的重要技术手段,对于提升国土资源宏观调控、管理监测、形势分析、政策评估、舆情分析等领域具有重要的决策支持能力。
地质灾害监测。以物联网、大数据技术为支撑,从海量地质灾害数据中充分挖掘数据的潜在信息价值,并结合多轨道、多尺度和多时相的遥感环境监测技术,建立智能化的地质灾害、地下水、矿山地质环境、地面沉降、水土环境、地质遗迹等调查、监测数据采集系统和预警预报系统,从而加强对灾害发生趋势的研判和预测,强化实时监测与预警,用数据的力量防治地质灾害。
三维可视化。数据可视化是描述、表达和理解各种半结构化甚至非结构化问题的关系和模型的最佳方法和手段。以地质空间大数据为基础,结合三维可视化、虚拟现实技术等,针对地质体和地质结构进行三维动态可视化建模,则可构成“玻璃地球”,帮助科研人员分析、预测、评估和决策。以数字矿山技术发展为例,三维可视化技术能够更加生动地展示矿山地质地貌的信息,清楚地反映矿体赋存状态,从而综合、动态地指导研究人员进行矿体定位与成矿预测工作。
大数据时代给地质学的发展带来了机遇和挑战。一方面,地质大数据为我们全面感知、了解地球打开了新的图景,也为地质科学的知识发现、科技创新提供了新的手段和途径。另一方面,由于地质大数据具有科学大数据的“三高”特点,给大数据的挖掘和利用提出了难题。此外,数据交流、共享机制的不成熟也成为地质大数据研究发展的阻碍之一。如何建立高效的大数据服务平台,推动具有大数据源的各个学科协同研究是今后要解决的重要问题。我国地质大数据的研究还处于起步阶段,但它的重要战略意义和发展应用前景都应该得到肯定。为此,提出加快我国地质大数据建设进程的3点建议。
推动“地质+大数据”人才培养体系的建立。高校要应对大数据时代的挑战,建立地质大数据人才培养方案。呼吁教育部和科技部加大对地质大数据项目的支持,以项目育人才,培育出既有扎实的地质学基础,同时熟悉算法开发、数据建模及数据架构,并且能够胜任地质大数据系统研发、地质大数据挖掘与分析、地质大数据应用开发等工作的学科交叉型专业人才。
加快地质大数据共享交流平台的建立。数据的自由流通和共建共享是发挥数据资源价值的关键。目前大多地质数据资源建设都由重大科研项目驱动,有一定的项目实施周期,其数据服务平台也存在着功能单一、检索效率低下、数据库建设标准不一等缺点,造成系统平台数据流通性、可用性较差。应由国家层面的专门机构协调构建由高校、科研院所和地质生产单位共同参与的地质大数据中心,在保护国家利益的前提下,加快构建规范统一的地质大数据共享交流平台,推动地质大数据的研究与应用。
地质学家和地质工作人员的思维变革。科学大数据已成为科学研究的重要途径,数据密集型科学范式也已逐渐被接受。地质学家和广大地质工作人员应该抓住历史契机,拥抱大数据,改变经验的传统思维模式,以新的态度看待数据,以新的思维方式利用数据,从中获取新知识,创造新价值。(作者:翟明国杨树锋陈宁华陈汉林浙江大学地球科学学院杭州中国科学院地质与地球物理研究所北京。《中国科学院院刊》供稿)