Computerized Adaptive Testing (CAT) has proven effective for efficient LLM evaluation on multiple-choice benchmarks, but modern LLM evaluation increasingly relies on generation tasks where outputs are scored continuously rather than marked correct/incorrect. We present a principled extension of IRT-based adaptive testing to continuous bounded scores (ROUGE, BLEU, LLM-as-a-Judge) by replacing the Bernoulli response distribution with a heteroskedastic normal distribution. Building on this, we introduce an uncertainty aware ranker with adaptive stopping criteria that achieves reliable model ranking while testing as few items and as cheaply as possible. We validate our method on five benchmarks spanning n-gram-based, embedding-based, and LLM-as-judge metrics. Our method uses 2% of the items while improving ranking correlation by 0.12 τ over random sampling, with 95% accuracy on confident predictions.


翻译:计算机化自适应测试已被证明在多选题基准测试中能有效提升大语言模型评估效率,然而现代大语言模型评估日益依赖于生成任务,其输出采用连续评分而非二元正误判断。我们通过用异方差正态分布替代伯努利响应分布,提出了基于项目反应理论的自适应测试向连续有界评分体系的原理性扩展。在此基础上,我们引入具备自适应停止准则的不确定性感知排序器,在尽可能减少测试项目与降低成本的同时实现可靠的模型排序。我们在涵盖基于n-元语法、基于嵌入表示和大语言模型即评判者五大基准测试上验证了本方法。该方法仅需使用2%的测试项目,即可将排序相关性较随机采样提升0.12 τ值,且在置信预测中达到95%的准确率。

0
下载
关闭预览

相关内容

排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序。反之,若参加排序的记录数量很大,整个序列的排序过程不可能在内存中完成,则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
多模态大语言模型的自我改进:综述
专知会员服务
25+阅读 · 2025年10月8日
大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
【斯坦福博士论文】大语言模型的AI辅助评估
专知会员服务
31+阅读 · 2025年3月30日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
多模态大语言模型的自我改进:综述
专知会员服务
25+阅读 · 2025年10月8日
大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
【斯坦福博士论文】大语言模型的AI辅助评估
专知会员服务
31+阅读 · 2025年3月30日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员