Proof of Time: A Benchmark for Evaluating Scientific Idea Judgments - 专知论文

会员服务 ·

0

基准 · 工具 · 智能体 · 基线 · 工具使用 ·

Proof of Time: A Benchmark for Evaluating Scientific Idea Judgments

翻译：时间证明：评估科学思想判断的基准

Bingyang Ye,Shan Chen,Jingxuan Tu,Chen Liu,Zidi Xiong,Samuel Schmidgall,Danielle S. Bitterman

from arxiv, under review

Large language models are increasingly being used to assess and forecast research ideas, yet we lack scalable ways to evaluate the quality of models' judgments about these scientific ideas. Towards this goal, we introduce PoT, a semi-verifiable benchmarking framework that links scientific idea judgments to downstream signals that become observable later (e.g., citations and shifts in researchers' agendas). PoT freezes a pre-cutoff snapshot of evidence in an offline sandbox and asks models to forecast post-cutoff outcomes, enabling verifiable evaluation when ground truth arrives, scalable benchmarking without exhaustive expert annotation, and analysis of human-model misalignment against signals such as peer-review awards. In addition, PoT provides a controlled testbed for agent-based research judgments that evaluate scientific ideas, comparing tool-using agents to non-agent baselines under prompt ablations and budget scaling. Across 30,000+ instances spanning four benchmark domains, we find that, compared with non-agent baselines, higher interaction budgets generally improve agent performance, while the benefit of tool use is strongly task-dependent. By combining time-partitioned, future-verifiable targets with an offline sandbox for tool use, PoT supports scalable evaluation of agents on future-facing scientific idea judgment tasks.

翻译：大型语言模型正日益被用于评估和预测研究思想，然而我们缺乏可扩展的方法来评估模型对这些科学思想判断的质量。为此，我们提出PoT，一个半可验证的基准框架，将科学思想判断与后续可观测的信号（如引用量和研究者议程的转变）相关联。PoT在离线沙箱中冻结截止时间前的证据快照，要求模型预测截止时间后的结果，从而在真实结果出现时实现可验证的评估、无需大量专家标注的可扩展基准测试，以及针对同行评议奖项等信号的人机对齐偏差分析。此外，PoT为基于智能体的科学思想评估研究提供了一个受控测试平台，在提示消融和预算规模变化的条件下，比较使用工具的智能体与非智能体基线。在涵盖四个基准领域的超过30,000个实例中，我们发现，与非智能体基线相比，更高的交互预算通常能提升智能体性能，而工具使用的效益则高度依赖于具体任务。通过将时间分区、未来可验证的目标与离线工具使用沙箱相结合，PoT支持对未来导向的科学思想判断任务中的智能体进行可扩展评估。

0

相关内容

决策智能中的时间序列预测大模型

决策智能中的时间序列预测大模型

专知会员服务

34+阅读 · 1月7日

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

专知会员服务

33+阅读 · 2025年9月16日

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

专知会员服务

50+阅读 · 2024年1月29日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

大模型时代: 知识图谱过时了吗？Griffith大学等最新《统一大型语言模型和知识图谱:路线图》，29页pdf详述最全指南

大模型时代: 知识图谱过时了吗？Griffith大学等最新《统一大型语言模型和知识图谱:路线图》，29页pdf详述最全指南

专知会员服务

193+阅读 · 2023年6月19日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

【经典书】计算和推理思维:数据科学的基础，631页pdf

专知会员服务

74+阅读 · 2021年10月15日

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

专知会员服务

36+阅读 · 2020年5月10日

【经典书】时间序列分析与预测导论，671页pdf

【经典书】时间序列分析与预测导论，671页pdf

专知

15+阅读 · 2022年4月1日

时空序列预测方法综述

时空序列预测方法综述

专知

22+阅读 · 2020年10月19日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

专知

31+阅读 · 2020年4月24日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

AINLP

75+阅读 · 2020年1月14日

论文浅尝 | 时序与因果关系联合推理

论文浅尝 | 时序与因果关系联合推理

开放知识图谱

36+阅读 · 2019年6月23日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

卫星导航系统时间溯源新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉质量感知的脑电时空特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

稳健随机均值模型在时空数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于监测加速度的拉索时变索力时程辨识及状态评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

Learning to Discover at Test Time

Arxiv

0+阅读 · 2月5日

Construction-Verification: A Benchmark for Applied Mathematics in Lean 4

Arxiv

0+阅读 · 2月1日

BeDiscovER: The Benchmark of Discourse Understanding in the Era of Reasoning Language Models

Arxiv

0+阅读 · 1月25日

Learning to Discover at Test Time

Arxiv

0+阅读 · 1月22日

PhysProver: Advancing Automatic Theorem Proving for Physics

Arxiv

0+阅读 · 1月22日

When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation

Arxiv

0+阅读 · 1月20日

Confidence over Time: Confidence Calibration with Temporal Logic for Large Language Model Reasoning

Arxiv

0+阅读 · 1月19日

SurGE: A Benchmark and Evaluation Framework for Scientific Survey Generation

Arxiv

0+阅读 · 1月18日

SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence

Arxiv

0+阅读 · 1月12日

RIGOURATE: Quantifying Scientific Exaggeration with Evidence-Aligned Claim Evaluation

Arxiv

0+阅读 · 1月12日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

决策智能中的时间序列预测大模型

决策智能中的时间序列预测大模型

专知会员服务

34+阅读 · 1月7日

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

专知会员服务

33+阅读 · 2025年9月16日

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

专知会员服务

50+阅读 · 2024年1月29日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

大模型时代: 知识图谱过时了吗？Griffith大学等最新《统一大型语言模型和知识图谱:路线图》，29页pdf详述最全指南

大模型时代: 知识图谱过时了吗？Griffith大学等最新《统一大型语言模型和知识图谱:路线图》，29页pdf详述最全指南

专知会员服务

193+阅读 · 2023年6月19日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

【经典书】计算和推理思维:数据科学的基础，631页pdf

专知会员服务

74+阅读 · 2021年10月15日

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

专知会员服务

36+阅读 · 2020年5月10日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

【经典书】时间序列分析与预测导论，671页pdf

【经典书】时间序列分析与预测导论，671页pdf

专知

15+阅读 · 2022年4月1日

时空序列预测方法综述

时空序列预测方法综述

专知

22+阅读 · 2020年10月19日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

专知

31+阅读 · 2020年4月24日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

AINLP

75+阅读 · 2020年1月14日

论文浅尝 | 时序与因果关系联合推理

论文浅尝 | 时序与因果关系联合推理

开放知识图谱

36+阅读 · 2019年6月23日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

相关论文

Learning to Discover at Test Time

Arxiv

0+阅读 · 2月5日

Construction-Verification: A Benchmark for Applied Mathematics in Lean 4

Arxiv

0+阅读 · 2月1日

BeDiscovER: The Benchmark of Discourse Understanding in the Era of Reasoning Language Models

Arxiv

0+阅读 · 1月25日

Learning to Discover at Test Time

Arxiv

0+阅读 · 1月22日

PhysProver: Advancing Automatic Theorem Proving for Physics

Arxiv

0+阅读 · 1月22日

When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation

Arxiv

0+阅读 · 1月20日

Confidence over Time: Confidence Calibration with Temporal Logic for Large Language Model Reasoning

Arxiv

0+阅读 · 1月19日

SurGE: A Benchmark and Evaluation Framework for Scientific Survey Generation

Arxiv

0+阅读 · 1月18日

SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence

Arxiv

0+阅读 · 1月12日

RIGOURATE: Quantifying Scientific Exaggeration with Evidence-Aligned Claim Evaluation

Arxiv

0+阅读 · 1月12日

相关基金

卫星导航系统时间溯源新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉质量感知的脑电时空特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

稳健随机均值模型在时空数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于监测加速度的拉索时变索力时程辨识及状态评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员