OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data - 专知论文

会员服务 ·

0

地球 · 基准 · 多模 · 模态 · 相互作用 ·

OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data

翻译：OmniEarth-Bench：基于多模态地球观测数据对地球六大圈层及其跨圈层相互作用进行整体评估的基准

Fengxiang Wang,Mingshuo Chen,Xuming He,Yi-Fan Zhang,Yueying Li,Feng Liu,Zijie Guo,Zhenghao Hu,Jiong Wang,Jingyi Xu,Zhangrui Li,Junchao Gong,Di Wang,Fenghua Ling,Ben Fei,Weijia Li,Long Lan,Wenjing Yang

Existing benchmarks for multimodal learning in Earth science offer limited, siloed coverage of Earth's spheres and their cross-sphere interactions, typically restricting evaluation to the human-activity sphere of atmosphere and to at most 16 tasks. These limitations: narrow-source heterogeneity (single/few data sources), constrained scientific granularity, and limited-sphere extensibility. Therefore, we introduce OmniEarth-Bench, the first multimodal benchmark that systematically spans all six spheres: atmosphere, lithosphere, oceanosphere, cryosphere, biosphere, and human-activity sphere, and cross-spheres. Built with a scalable, modular-topology data inference framework and native multi-observation sources and expert-in-the-loop curation, OmniEarth-Bench produces 29,855 standardized, expert-curated annotations. All annotations are organized into a four-level hierarchy (Sphere, Scenario, Ability, Task), encompassing 109 expert-curated evaluation tasks. Experiments on 9 state-of-the-art MLLMs reveal that even the most advanced models struggle with our benchmarks, where none of them reach 35% accuracy, revealing systematic gaps in Earth-system cognitive ability. The dataset and evaluation code were released at OmniEarth-Bench (https://anonymous.4open.science/r/OmniEarth-Bench-B1BD).

翻译：现有的地球科学多模态学习基准对地球各圈层及其跨圈层相互作用的覆盖范围有限且相互孤立，通常将评估限制在人类活动圈层（大气圈）以及最多16个任务。这些局限性体现在：数据源异质性狭窄（单一或少数数据源）、科学粒度受限以及圈层可扩展性不足。为此，我们提出了OmniEarth-Bench，这是首个系统覆盖全部六大圈层——大气圈、岩石圈、水圈、冰冻圈、生物圈、人类活动圈——及其跨圈层相互作用的多模态基准。该基准基于一个可扩展的模块化拓扑数据推断框架构建，并整合了原生多观测数据源与专家参与循环的标注流程，共产生了29,855个标准化的、经专家审核的标注。所有标注按四级层次结构（圈层、场景、能力、任务）组织，涵盖了109个由专家设计的评估任务。在9个前沿多模态大语言模型上的实验表明，即使是最先进的模型在我们的基准上也表现不佳，没有任何模型达到35%的准确率，这揭示了现有模型在地球系统认知能力方面存在系统性差距。数据集与评估代码已发布于OmniEarth-Bench（https://anonymous.4open.science/r/OmniEarth-Bench-B1BD）。

0

相关内容

地球（Earth），是太阳系八大行星之一，按离太阳由近及远的次序排列为第三颗。地球是太阳系的第三颗行星，也是太阳系中直径、质量和密度第一的类地行星。地球上71%为海洋，29%为陆地，所以太空上看地球呈蓝色。地球是目前发现的星球中人类生存的唯一星球。

美陆军工程研发中心《地理气候智能平台：一个用于环境数据分析的网络框架》

美陆军工程研发中心《地理气候智能平台：一个用于环境数据分析的网络框架》

专知会员服务

18+阅读 · 3月10日

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

专知会员服务

31+阅读 · 2025年10月9日

《遥感基础模型研究综述：从视觉到多模态的演进》

《遥感基础模型研究综述：从视觉到多模态的演进》

专知会员服务

18+阅读 · 2025年3月31日

大模型如何预测天气？悉尼科技大学等最新《天气和气候数据理解的基础模型》综述

大模型如何预测天气？悉尼科技大学等最新《天气和气候数据理解的基础模型》综述

专知会员服务

49+阅读 · 2023年12月9日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

中方发布《地球大数据支撑可持续发展目标报告（2022）》

中方发布《地球大数据支撑可持续发展目标报告（2022）》

专知会员服务

20+阅读 · 2022年10月2日

中科院空天院等最新《基于深度学习的多模态遥感数据融合》综述论文

中科院空天院等最新《基于深度学习的多模态遥感数据融合》综述论文

专知会员服务

136+阅读 · 2022年5月7日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

最新《深度多模态数据分析》综述论文，26页pdf

最新《深度多模态数据分析》综述论文，26页pdf

专知会员服务

302+阅读 · 2020年6月16日

【深度估计| 2019最新综述】单目深度估计方法综述（Monocular Depth Estimation: A Survey）

专知会员服务

69+阅读 · 2019年11月23日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

泡泡机器人SLAM

29+阅读 · 2019年5月29日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

泡泡机器人SLAM

11+阅读 · 2019年5月8日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

专知

10+阅读 · 2018年3月10日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于多元互信息和快速稀疏多核学习的高光谱遥感影像地物分类

国家自然科学基金

0+阅读 · 2015年12月31日

井震联合数据驱动下，多智能技术融合的煤层气储层参数预测与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于地基遥感观测的大气气溶胶成分及混合状态联合反演研究

国家自然科学基金

0+阅读 · 2015年12月31日

中国海及邻区岩石圈有效弹性厚度及其构造意义

国家自然科学基金

0+阅读 · 2015年12月31日

煤系细粒沉积微细结构及其演化机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于分形理论和三维地质力学模拟定量预测亚地震断层

国家自然科学基金

0+阅读 · 2015年12月31日

大规模轨迹数据的地理空间关联解译及分析挖掘研究

国家自然科学基金

1+阅读 · 2014年12月31日

断层转折褶皱作用的参数空间及其对应的力学机制与预测模型

国家自然科学基金

0+阅读 · 2014年12月31日

合成孔径雷达（SAR）在地球科学应用中的尺度效应研究

国家自然科学基金

0+阅读 · 2014年12月31日

Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generation

Arxiv

0+阅读 · 3月18日

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

Arxiv

0+阅读 · 3月3日

OmniRet: Efficient and High-Fidelity Omni Modality Retrieval

Arxiv

0+阅读 · 3月2日

ReSearch: A Multi-Stage Machine Learning Framework for Earth Science Data Discovery

Arxiv

0+阅读 · 3月2日

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

Arxiv

0+阅读 · 2月17日

PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

Arxiv

0+阅读 · 2月15日

OmniScience: A Large-scale Multi-modal Dataset for Scientific Image Understanding

Arxiv

0+阅读 · 2月14日

OrbitChain: Orchestrating In-orbit Real-time Analytics of Earth Observation Data

Arxiv

0+阅读 · 2月10日

OmniReview: A Large-scale Benchmark and LLM-enhanced Framework for Realistic Reviewer Recommendation

Arxiv

0+阅读 · 2月9日

StefaLand: An Efficient Geoscience Foundation Model That Improves Dynamic Land-Surface Predictions

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

0+阅读 · 12分钟前

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

1+阅读 · 20分钟前

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

2+阅读 · 38分钟前

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

1+阅读 · 48分钟前

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

2+阅读 · 52分钟前

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

1+阅读 · 56分钟前

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

1+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

4+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

8+阅读 · 4月22日

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

8+阅读 · 4月22日

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

6+阅读 · 4月22日

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

9+阅读 · 4月22日

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

6+阅读 · 4月22日

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

4+阅读 · 4月22日

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

5+阅读 · 4月22日

相关VIP内容

美陆军工程研发中心《地理气候智能平台：一个用于环境数据分析的网络框架》

美陆军工程研发中心《地理气候智能平台：一个用于环境数据分析的网络框架》

专知会员服务

18+阅读 · 3月10日

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

专知会员服务

31+阅读 · 2025年10月9日

《遥感基础模型研究综述：从视觉到多模态的演进》

《遥感基础模型研究综述：从视觉到多模态的演进》

专知会员服务

18+阅读 · 2025年3月31日

大模型如何预测天气？悉尼科技大学等最新《天气和气候数据理解的基础模型》综述

大模型如何预测天气？悉尼科技大学等最新《天气和气候数据理解的基础模型》综述

专知会员服务

49+阅读 · 2023年12月9日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

中方发布《地球大数据支撑可持续发展目标报告（2022）》

中方发布《地球大数据支撑可持续发展目标报告（2022）》

专知会员服务

20+阅读 · 2022年10月2日

中科院空天院等最新《基于深度学习的多模态遥感数据融合》综述论文

中科院空天院等最新《基于深度学习的多模态遥感数据融合》综述论文

专知会员服务

136+阅读 · 2022年5月7日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

最新《深度多模态数据分析》综述论文，26页pdf

最新《深度多模态数据分析》综述论文，26页pdf

专知会员服务

302+阅读 · 2020年6月16日

【深度估计| 2019最新综述】单目深度估计方法综述（Monocular Depth Estimation: A Survey）

专知会员服务

69+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《电子战数据交换模型研究报告》

《基于Transformer的异常舰船导航识别与跟踪》80页

《压缩式分布式交互仿真标准》120页

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

【泡泡点云时空】DeepMapping: 来自多重点云的无监督地图估计

泡泡机器人SLAM

29+阅读 · 2019年5月29日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

泡泡机器人SLAM

11+阅读 · 2019年5月8日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

专知

10+阅读 · 2018年3月10日

相关论文

Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generation

Arxiv

0+阅读 · 3月18日

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

Arxiv

0+阅读 · 3月3日

OmniRet: Efficient and High-Fidelity Omni Modality Retrieval

Arxiv

0+阅读 · 3月2日

ReSearch: A Multi-Stage Machine Learning Framework for Earth Science Data Discovery

Arxiv

0+阅读 · 3月2日

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

Arxiv

0+阅读 · 2月17日

PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

Arxiv

0+阅读 · 2月15日

OmniScience: A Large-scale Multi-modal Dataset for Scientific Image Understanding

Arxiv

0+阅读 · 2月14日

OrbitChain: Orchestrating In-orbit Real-time Analytics of Earth Observation Data

Arxiv

0+阅读 · 2月10日

OmniReview: A Large-scale Benchmark and LLM-enhanced Framework for Realistic Reviewer Recommendation

Arxiv

0+阅读 · 2月9日

StefaLand: An Efficient Geoscience Foundation Model That Improves Dynamic Land-Surface Predictions

Arxiv

0+阅读 · 2月2日

相关基金

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于多元互信息和快速稀疏多核学习的高光谱遥感影像地物分类

国家自然科学基金

0+阅读 · 2015年12月31日

井震联合数据驱动下，多智能技术融合的煤层气储层参数预测与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于地基遥感观测的大气气溶胶成分及混合状态联合反演研究

国家自然科学基金

0+阅读 · 2015年12月31日

中国海及邻区岩石圈有效弹性厚度及其构造意义

国家自然科学基金

0+阅读 · 2015年12月31日

煤系细粒沉积微细结构及其演化机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于分形理论和三维地质力学模拟定量预测亚地震断层

国家自然科学基金

0+阅读 · 2015年12月31日

大规模轨迹数据的地理空间关联解译及分析挖掘研究

国家自然科学基金

1+阅读 · 2014年12月31日

断层转折褶皱作用的参数空间及其对应的力学机制与预测模型

国家自然科学基金

0+阅读 · 2014年12月31日

合成孔径雷达（SAR）在地球科学应用中的尺度效应研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员