Monitoring volcanic activity is of paramount importance to safeguarding lives, infrastructure, and ecosystems. However, only a small fraction of known volcanoes are continuously monitored. Satellite-based Interferometric Synthetic Aperture Radar (InSAR) enables systematic, global-scale deformation monitoring. However, its complex data challenge traditional remote sensing methods. Deep learning offers a powerful means to automate and enhance InSAR interpretation, advancing volcanology and geohazard assessment. Despite its promise, progress has been limited by the scarcity of well-curated datasets. In this work, we build on the existing Hephaestus dataset and introduce Thalia, addressing crucial limitations and enriching its scope with higher-resolution, multi-source, and multi-temporal data. Thalia is a global collection of 38 spatiotemporal datacubes covering 7 years and integrating InSAR products, topographic data, as well as atmospheric variables, known to introduce signal delays that can mimic ground deformation in InSAR imagery. Each sample includes expert annotations detailing the type, intensity, and extent of deformation, ac- companied by descriptive text. To enable fair and consistent evaluation, we provide a comprehensive benchmark using state-of-the-art models for classification and segmentation. This work fosters collaboration between machine learning and Earth science, advancing volcanic monitoring and promoting data-driven approaches in geoscience. The code and latest version of the dataset are available through the github repository: https://github.com/Orion-AI-Lab/Thalia


翻译:火山活动监测对于保护生命、基础设施和生态系统至关重要。然而,目前仅有少量已知火山得到持续监测。基于卫星的干涉合成孔径雷达(InSAR)技术能够实现系统性、全球尺度的形变监测,但其复杂的数据特性对传统遥感方法构成了挑战。深度学习为InSAR数据解释的自动化与性能提升提供了强大手段,从而推动火山学与地质灾害评估的发展。尽管前景广阔,但进展一直受限于高质量标注数据集的稀缺。本研究基于现有Hephaestus数据集,引入塔利亚(Thalia)数据集,以解决关键局限性,并通过更高分辨率、多源、多时相数据扩展其覆盖范围。塔利亚是一个全球性时空数据立方体集合,涵盖7年时间跨度,集成了InSAR产品、地形数据以及已知会在InSAR影像中产生类似地表形变信号延迟的大气变量。每个样本均包含专家标注,详细描述形变的类型、强度与范围,并附有描述性文本。为支持公平一致的评估,我们使用最先进的分类与分割模型提供了全面基准测试。这项工作促进了机器学习与地球科学领域的交叉合作,推动了火山监测技术的发展,并倡导地球科学领域的数据驱动研究方法。代码与数据集最新版本可通过GitHub仓库获取:https://github.com/Orion-AI-Lab/Thalia

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
专知会员服务
45+阅读 · 2021年2月8日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
GIS最新热点以及未来发展热门
人工智能学家
10+阅读 · 2018年3月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员