Run-level pass rate overstates retry-free coverage by up to 17.8 percentage points -- and the gap is largest precisely for mid-performing systems. We investigate this accuracy--stability relationship in large language model (LLM) evaluation for deterministic text-conditioned generation, using programming tasks as a concrete testbed. Standard code-generation benchmarks emphasize single-run accuracy or eventual success under repeated sampling, but many deployment settings also require stability: consistent outcomes across repeated invocations under the same task description. We present a repeated-run evaluation protocol with metrics for run-level accuracy, retry-free coverage, and per-problem variability. On a recency-based benchmark of 100 LeetCode-style problems, we evaluate 16 models from five provider families under two prompt templates with five repeated runs per problem, yielding 16,000 evaluation instances. Although run-level pass rate and perfect stability rate are strongly correlated (r=0.985), pass rate consistently exceeds retry-free coverage -- a gap that reaches 17.8 percentage points and reverses model rankings even among closely matched systems. Prompt effects are model-dependent rather than uniformly beneficial. These results suggest that repeated-run stability analysis is a necessary complement to conventional accuracy reporting for deterministic text-conditioned generation tasks.


翻译:运行级通过率会将免重试覆盖率高估最多17.8个百分点——这一差距恰恰在中等性能系统中最为显著。我们以编程任务为具体测试平台,研究确定性文本条件生成场景下大语言模型(LLM)评估中的准确性-稳定性关系。标准代码生成基准强调单次运行准确性或在重复采样下的最终成功率,但许多部署场景还需要稳定性:即相同任务描述下多次调用时的一致结果。我们提出一种重复运行评估协议,包含运行级准确性、免重试覆盖率和逐问题变异性等指标。基于100道近期LeetCode风格问题组成的基准集,我们评估了来自五个提供商家族的16个模型,采用两种提示模板,每个问题运行五次,共生成16,000个评估实例。尽管运行级通过率与完全稳定率高度相关(r=0.985),通过率始终高于免重试覆盖率——这一差距可达17.8个百分点,甚至会在表现相近的系统中反转模型排名。提示效果因模型而异,并非普遍有益。这些结果表明,针对确定性文本条件生成任务,重复运行稳定性分析是传统准确性报告的必要补充。

0
下载
关闭预览

相关内容

人们为了让计算机解决各种棘手的问题,使用编程语言 编写程序代码并通过计算机运算得到最终结果的过程。
大语言模型基准综述
专知会员服务
27+阅读 · 2025年8月22日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
大语言模型简明指南
专知会员服务
143+阅读 · 2023年7月29日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员