Deploying LLMs raises two coupled challenges: (1) monitoring--estimating where a model underperforms as traffic and domains drift--and (2) improvement--prioritizing data acquisition to close the largest performance gaps. We test whether an inference-time signal can estimate slice-level accuracy under domain shift. For each response, we compute an output-entropy profile from final-layer next-token probabilities (from top-$k$ logprobs) and summarize it with different statistics. A lightweight classifier predicts instance correctness, and averaging predicted probabilities yields a domain-level accuracy estimate. We evaluate on ten STEM reasoning benchmarks with exhaustive train/test compositions ($k\in\{1,2,3,4\}$; all $\binom{10}{k}$ combinations), on different classifier models and features across nine LLMs from six families (3B--20B). Estimates often track held-out benchmark accuracy, and several models show near-monotonic ordering of domains, providing evidence for output-entropy profiles being an accessible signal for scalable monitoring and for targeted data acquisition.


翻译:部署大语言模型面临两个相互关联的挑战:(1) 监测——在流量和领域发生漂移时评估模型在哪些方面表现不佳;(2) 改进——优先获取数据以弥补最大的性能差距。本研究检验推理阶段的信号是否能在领域偏移下估计分片级精度。针对每个响应,我们基于最终层下一词元概率(源自top-$k$对数概率)计算输出熵分布曲线,并使用不同统计量对其进行概括。通过轻量级分类器预测实例正确性,并平均预测概率得到领域级精度估计。我们在十个STEM推理基准测试上进行了评估,涵盖详尽的训练/测试组合($k\in\{1,2,3,4\}$;所有$\binom{10}{k}$组合),并在来自六个系列(3B–20B)的九个大语言模型上测试了不同分类器模型与特征。估计结果常能跟踪保留基准测试的精度,多个模型显示出近乎单调的领域排序,这为输出熵分布曲线作为可扩展监测及定向数据采集的有效信号提供了证据。

0
下载
关闭预览

相关内容

大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
86+阅读 · 2022年10月29日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
无人机在美以伊战争中的关键启示(印度视角)
专知会员服务
0+阅读 · 今天7:33
美军夺取伊朗离岸岛屿分析:高风险,低收益
专知会员服务
7+阅读 · 4月10日
将生成式人工智能整合进军事战术决策中
专知会员服务
10+阅读 · 4月10日
美国2026最新发布《人工智能国家政策框架》
专知会员服务
8+阅读 · 4月10日
大模型错因诊断分析
专知会员服务
6+阅读 · 4月9日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员