STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction - 专知论文

会员服务 ·

0

模型性能 · 智能体推理 · 融合 · 性能预测 · 稀疏 ·

STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction

翻译：STAR：融合统计推理与智能体推理的大模型性能预测框架

Xiaoxiao Wang,Chunxiao Li,Junying Wang,Yijin Guo,Zijian Chen,Chunyi Li,Xiaohong Liu,Zicheng Zhang,Guangtao Zhai

from arxiv, 10 pages, 8 figures, 17 tables. Code available at https://github.com/xiaoxiaostudy/star

As comprehensive large model evaluation becomes prohibitively expensive, predicting model performance from limited observations has become essential. However, existing statistical methods struggle with pattern shifts, data sparsity, and lack of explanation, while pure LLM methods remain unreliable. We propose STAR, a framework that bridges data-driven STatistical expectations with knowledge-driven Agentic Reasoning. STAR leverages specialized retrievers to gather external knowledge and embeds semantic features into Constrained Probabilistic Matrix Factorization (CPMF) to generate statistical expectations with uncertainty. A reasoning module guided by Expectation Violation Theory (EVT) then refines predictions through intra-family analysis, cross-model comparison, and credibility-aware aggregation, producing adjustments with traceable explanations. Extensive experiments show that STAR consistently outperforms all baselines on both score-based and rank-based metrics, delivering a 14.46% gain in total score over the strongest statistical method under extreme sparsity, with only 1--2 observed scores per test model.

翻译：随着全面大模型评估的成本日益高昂，从有限观测中预测模型性能变得至关重要。然而，现有统计方法难以应对模式偏移、数据稀疏性和解释性不足的问题，而纯大语言模型方法仍不可靠。我们提出STAR框架，该框架将数据驱动的统计期望与知识驱动的智能体推理相结合。STAR利用专用检索器收集外部知识，并将语义特征嵌入约束概率矩阵分解（CPMF）中，以生成带有不确定性的统计期望。随后，一个由期望违背理论（EVT）指导的推理模块通过家族内分析、跨模型比较和可信度感知聚合来优化预测，产生具有可追溯解释的调整项。大量实验表明，STAR在基于分数和基于排名的指标上均持续优于所有基线方法；在极端稀疏条件下（每个测试模型仅观测1-2个分数），其总分比最强的统计方法提升了14.46%。

0

相关内容

模型性能

面向战斗模拟空间推理的大语言模型指挥官智能体框架

面向战斗模拟空间推理的大语言模型指挥官智能体框架

专知会员服务

22+阅读 · 3月18日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

26+阅读 · 2月27日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

决策智能中的时间序列预测大模型

决策智能中的时间序列预测大模型

专知会员服务

34+阅读 · 1月7日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

专知会员服务

42+阅读 · 2024年6月27日

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

专知会员服务

77+阅读 · 2023年12月23日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

专知

67+阅读 · 2019年9月26日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

【大数据】大数据参考架构和关键技术（综合）

【大数据】大数据参考架构和关键技术（综合）

产业智能官

14+阅读 · 2018年11月22日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【CVPR Oral】TensorFlow实现StarGAN代码全部开源，1天训练完

【CVPR Oral】TensorFlow实现StarGAN代码全部开源，1天训练完

新智元

12+阅读 · 2018年6月13日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

15款免费预测分析软件！收藏好，别丢了！

15款免费预测分析软件！收藏好，别丢了！

七月在线实验室

11+阅读 · 2018年2月27日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

利用贝叶斯方法估计LAMOST恒星参数

国家自然科学基金

2+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

Arxiv

0+阅读 · 3月10日

Agentic Scientific Simulation: Execution-Grounded Model Construction and Reconstruction

Arxiv

0+阅读 · 2月27日

Beyond the Star Rating: A Scalable Framework for Aspect-Based Sentiment Analysis Using LLMs and Text Classification

Arxiv

0+阅读 · 2月24日

AdaptOrch: Task-Adaptive Multi-Agent Orchestration in the Era of LLM Performance Convergence

Arxiv

0+阅读 · 2月18日

TabTracer: Monte Carlo Tree Search for Complex Table Reasoning with Large Language Models

Arxiv

0+阅读 · 2月15日

Think like a Scientist: Physics-guided LLM Agent for Equation Discovery

Arxiv

0+阅读 · 2月12日

Internalizing Multi-Agent Reasoning for Accurate and Efficient LLM-based Recommendation

Arxiv

0+阅读 · 2月12日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Arxiv

0+阅读 · 2月5日

STELLAR: Structure-guided LLM Assertion Retrieval and Generation for Formal Verification

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

智能体推理

最新内容

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

0+阅读 · 7分钟前

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

0+阅读 · 11分钟前

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

0+阅读 · 41分钟前

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

9+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

4+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

2+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

3+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

2+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

2+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

10+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

5+阅读 · 4月20日

相关VIP内容

面向战斗模拟空间推理的大语言模型指挥官智能体框架

面向战斗模拟空间推理的大语言模型指挥官智能体框架

专知会员服务

22+阅读 · 3月18日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

26+阅读 · 2月27日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

决策智能中的时间序列预测大模型

决策智能中的时间序列预测大模型

专知会员服务

34+阅读 · 1月7日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

专知会员服务

42+阅读 · 2024年6月27日

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

专知会员服务

77+阅读 · 2023年12月23日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《军用自主人工智能系统的治理与安全》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

专知

67+阅读 · 2019年9月26日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

【大数据】大数据参考架构和关键技术（综合）

【大数据】大数据参考架构和关键技术（综合）

产业智能官

14+阅读 · 2018年11月22日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【CVPR Oral】TensorFlow实现StarGAN代码全部开源，1天训练完

【CVPR Oral】TensorFlow实现StarGAN代码全部开源，1天训练完

新智元

12+阅读 · 2018年6月13日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

15款免费预测分析软件！收藏好，别丢了！

15款免费预测分析软件！收藏好，别丢了！

七月在线实验室

11+阅读 · 2018年2月27日

相关论文

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

Arxiv

0+阅读 · 3月10日

Agentic Scientific Simulation: Execution-Grounded Model Construction and Reconstruction

Arxiv

0+阅读 · 2月27日

Beyond the Star Rating: A Scalable Framework for Aspect-Based Sentiment Analysis Using LLMs and Text Classification

Arxiv

0+阅读 · 2月24日

AdaptOrch: Task-Adaptive Multi-Agent Orchestration in the Era of LLM Performance Convergence

Arxiv

0+阅读 · 2月18日

TabTracer: Monte Carlo Tree Search for Complex Table Reasoning with Large Language Models

Arxiv

0+阅读 · 2月15日

Think like a Scientist: Physics-guided LLM Agent for Equation Discovery

Arxiv

0+阅读 · 2月12日

Internalizing Multi-Agent Reasoning for Accurate and Efficient LLM-based Recommendation

Arxiv

0+阅读 · 2月12日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Arxiv

0+阅读 · 2月5日

STELLAR: Structure-guided LLM Assertion Retrieval and Generation for Formal Verification

Arxiv

0+阅读 · 2月5日

相关基金

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

利用贝叶斯方法估计LAMOST恒星参数

国家自然科学基金

2+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员