卫星虽被形象地称为“天眼”,事实上卫星数据的应用,却难以做到“尽收尽用”。
中国工程院院士杨小牛就曾经表示,卫星在天上飞来飞去,效能其实并不高,每天只有几十分钟时段内采集到的数据是地面需要的。
那些大量的被认为是无效数据的“废片”,有没有可能被利用起来?
近日,清华大学理学院院长、地球系统科学系主任宫鹏介绍,在高性能云计算的支持下,通过数据建模、人工智能算法等手段,清华大学地球系统科学系制作完成了首套中国30米逐日无缝遥感观测数据集,以及逐季节土地覆盖和逐年土地利用的数据集,让“拼图无解”的卫星“废片”能够成为高分辨率的地图资源。
人工智能深度“补片”
“传统的对地卫星观测,拍下来的照片是不同时间采集的,拼在一起并不完整,使用门槛很高。”宫鹏解释,卫星直接获得的图片不能拿来直接用,因为卫星图片不是自然连续的,很可能像100块的拼图,有时候是少了50块的效果,但也有可能同样的拼图来了好几块。
不止如此,卫星轨道的偏差还会造成同一地方不同时间拍摄的图片难以重叠,云彩的遮挡、雾气不均匀的散射都会导致大量的卫星遥感数据难以反映地表的真实情况,而成为难用的“废片”。
基于此前完成10米分辨率全球地表覆盖制图数据处理过程中积累的经验,清华大学地球系统科学系团队自主研发了时空数据融合重建的技术。
“我们构建了人工智能需要的知识库,其中包括世界首套全球全季节普适样本库和相关领域知识。库中分为训练样本库和完全独立的验证样本库。”清华大学博士生刘涵介绍,团队设计了一套适应遥感大数据的深度遥感特征学习和分类模型,利用机器学习和数据建模对人工智能系统进行了训练,使其能够“理解”或者说“推断”出缺失的图块,进而补缺。
“就好像现在一些APP身份验证时,会有一个补图的步骤,经过训练的模型,也可以大规模分析现有的卫星图片,自动补图,且做到数据与真实情况相符合。”刘涵说。
通过训练,模型可完成高性能的推理,把不完整的“拼图”重建成时空一致的图像库,建立起这一深度遥感制图模型的“超能力”,完成各种不合格“废片”的补片工作,从而生成与真实情况相匹配的遥感观测数据集。例如通过人工智能技术可识别路面是沥青、土路还是水泥路面等地表覆盖类型。
计算上云避免巨大资源消耗
“地球系统科学使用和产生的数据是极其巨大的,例如气候模拟和预测会生成时间间隔在小时级、地面分辨率是3公里的气候数据,这些数据的数据量级往往相当于数百万集高清电影的量级。”宫鹏介绍,因此需要超强算力来完成。
如果为这些数据进行数据中心建设的话,需要三四百个机柜,占地成本和时间成本耗费巨大。对这些数据集中的数据进行AI处理时,如果不在云上进行而是搬运下载后再运算,那光是用来搬运的时间也可能需要几个月。
而通过云上高性能计算,则能够把算力部署在公共数据集周边,围绕数据进行计算。据介绍,亚马逊云服务(AWS)为此次项目的完成提供了10万核左右的云上高性能计算资源。
此外,AWS上还提供一整套完善的人工智能和机器学习的套件和服务以及自动化多层堆叠集成技术,可用于对模型结构和参数进行深度调优,并进行分布式高性能推理。
“现在中学生、小学生想拿数据做点什么,从里面拉几条曲线,或者把一个区域拿出来做一些探测、变化、趋势的分析,都已经变得非常容易。”宫鹏说,对于卫星公共数据的梳理、重建,让卫星遥感图的使用门槛大大降低,如果说之前只有专业用户能从数据中获得价值,那么以后极速体育,足球即时比分直播的普通用户也能看懂和利用这些数据。