As language models are increasingly used in scientific workflows, evaluating their ability to propose sets of explanations-not just a single correct answer-becomes critical. Many scientific problems are underdetermined: multiple, mechanistically distinct hypotheses are consistent with the same observations. We introduce HypoSpace, a diagnostic suite that treats LLMs as samplers of finite hypothesis sets and measures three complementary indicators: Validity (precision of proposals consistent with observations), Uniqueness (non-redundancy among proposals), and Recovery (coverage of the enumerated admissible set). We instantiate HypoSpace in three structured domains with deterministic validators and exactly enumerated hypothesis spaces: (i) causal graphs from perturbations, (ii) gravity-constrained 3D voxel reconstruction from top-down projections, and (iii) Boolean genetic interactions. Across instruction-tuned and reasoning-focused models, Validity often remains high while Uniqueness and Recovery degrade as the admissible space grows, revealing mode collapse that is invisible to correctness-only metrics. HypoSpace offers a controlled probe-rather than a leaderboard-for methods that explicitly explore and cover admissible explanation spaces. Code is available at: https://github.com/CTT-Pavilion/_HypoSpace.


翻译:随着语言模型在科学工作流程中的应用日益广泛,评估其提出解释集合(而非单一正确答案)的能力变得至关重要。许多科学问题具有欠定性:多个机制不同的假设可以与同一组观测结果相容。我们提出了HypoSpace,这是一个诊断套件,它将LLMs视为有限假设集合的采样器,并测量三个互补指标:有效性(与观测相容的提议精度)、独特性(提议间的非冗余性)和覆盖率(对已枚举可容许集合的覆盖度)。我们在三个具有确定性验证器和精确枚举假设空间的结构化领域中实例化了HypoSpace:(i)基于扰动的因果图,(ii)基于重力约束的俯视投影三维体素重建,以及(iii)布尔遗传相互作用。在指令微调和推理导向的模型中,有效性通常保持较高水平,而独特性和覆盖率随着可容许空间的扩大而下降,这揭示了仅靠正确性指标无法察觉的模式崩溃现象。HypoSpace为那些明确探索和覆盖可容许解释空间的方法提供了一个受控探针,而非排行榜。代码发布于:https://github.com/CTT-Pavilion/_HypoSpace。

0
下载
关闭预览

相关内容

评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
迈向LLM时代的可泛化评估:超越基准的综述
专知会员服务
23+阅读 · 2025年4月29日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
哈工大讯飞联合实验室发布中文XLNet预训练模型
哈工大SCIR
13+阅读 · 2019年8月20日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
Palantir AIP平台:连接智能体与决策
专知会员服务
1+阅读 · 今天1:22
《美海军软件测试战略》90页slides
专知会员服务
2+阅读 · 今天1:00
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
1+阅读 · 4月30日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员