The rapid expansion of Earth Science data from satellite observations, reanalysis products, and numerical simulations has created a critical bottleneck in scientific discovery, namely identifying relevant datasets for a given research objective. Existing discovery systems are primarily retrieval-centric and struggle to bridge the gap between high-level scientific intent and heterogeneous metadata at scale. We introduce \textbf{ReSearch}, a multi-stage, reasoning-enhanced search framework that formulates Earth Science data discovery as an iterative process of intent interpretation, high-recall retrieval, and context-aware ranking. ReSearch integrates lexical search, semantic embeddings, abbreviation expansion, and large language model reranking within a unified architecture that explicitly separates recall and precision objectives. To enable realistic evaluation, we construct a literature-grounded benchmark by aligning natural language intent with datasets cited in peer-reviewed Earth Science studies. Experiments demonstrate that ReSearch consistently improves recall and ranking performance over baseline methods, particularly for task-based queries expressing abstract scientific goals. These results underscore the importance of intent-aware, multi-stage search as a foundational capability for reproducible and scalable Earth Science research.


翻译:随着卫星观测、再分析产品和数值模拟生成的地球科学数据迅速增长,科学发现面临一个关键瓶颈:如何为特定研究目标识别相关数据集。现有发现系统主要以检索为中心,难以大规模弥合高层科学意图与异构元数据之间的鸿沟。我们提出 \textbf{ReSearch},一个多阶段、推理增强的搜索框架,将地球科学数据发现建模为意图解析、高召回率检索和上下文感知排序的迭代过程。ReSearch 将词法搜索、语义嵌入、缩写扩展和大语言模型重排序集成于统一架构中,明确分离召回与精度目标。为实现现实评估,我们通过将自然语言意图与同行评议地球科学研究中引用的数据集对齐,构建了一个基于文献的基准。实验表明,与基线方法相比,ReSearch 能持续提升召回率和排序性能,尤其对于表达抽象科学目标的任务型查询。这些结果凸显了意图感知、多阶段搜索作为可复现、可扩展地球科学研究基础能力的重要性。

0
下载
关闭预览

相关内容

地球(Earth),是太阳系八大行星之一,按离太阳由近及远的次序排列为第三颗。地球是太阳系的第三颗行星,也是太阳系中直径、质量和密度第一的类地行星。地球上71%为海洋,29%为陆地,所以太空上看地球呈蓝色。地球是目前发现的星球中人类生存的唯一星球。
【AI4Science】「机器学习科学发现」方法研究综述
专知会员服务
82+阅读 · 2022年12月6日
数据科学平台:特征、技术及趋势
专知会员服务
46+阅读 · 2022年4月17日
机器学习中原型学习研究进展
专知会员服务
47+阅读 · 2022年1月18日
基于深度学习的多标签生成研究进展
专知会员服务
147+阅读 · 2020年4月25日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
Deep Learning(深度学习)各种资料网址
数据挖掘入门与实战
11+阅读 · 2017年10月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员