Retrieval effectiveness varies substantially across queries, making it important to estimate ranking quality before relevance judgments are available. Query performance prediction (QPP) addresses this need, but most existing methods rely on external predictors after retrieval or reranking. In this paper, we study \textit{reranker-internal QPP}: can an LLM reranker estimate the quality of the ranking it has just produced? We investigate both training-free and training-based approaches. For training-free estimation, we examine metric-specific self-consistency across sampled rankings and verbalized confidence produced directly by the reranker. Experiments on TREC Deep Learning 2019--2022 with four LLMs show that self-consistency is competitive with the state-of-the-art (SOTA) approach and better calibrated in almost all settings, while direct verbalized confidence is severely overconfident. To improve verbalized confidence, we propose two supervised methods, Verb-Num and Verb-List, which enable LLM rerankers to produce calibrated ranking-quality estimates with only a few additional output tokens.


翻译:检索效果在不同查询之间存在显著差异,因此在获得相关性标注前评估排序质量至关重要。查询性能预测(QPP)可满足这一需求,但现有方法大多依赖检索或重排序后的外部预测器。本文研究重排序器内部QPP问题:LLM重排序器能否评估其刚生成的排序质量?我们同时探索了无训练与基于训练的方法。针对无训练评估,我们考察了跨采样排序的特定指标自一致性以及重排序器直接生成的显式置信度。在TREC 2019-2022深度学习数据集上使用四个LLM的实验表明,自一致性在几乎所有设置下均与最先进方法(SOTA)性能相当且校准性更优,而直接显式置信度存在严重过度自信问题。为改进显式置信度,我们提出两种监督方法——Verb-Num与Verb-List,使LLM重排序器仅需增加少量输出标记即可生成校准的排序质量估计。

0
下载
关闭预览

相关内容

【ICLR2024】能检测到LLM产生的错误信息吗?
专知会员服务
25+阅读 · 2024年1月23日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
使用LSTM模型预测股价基于Keras
量化投资与机器学习
35+阅读 · 2018年11月17日
基于LSTM深层神经网络的时间序列预测
论智
22+阅读 · 2018年9月4日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
[推荐] 这些年,我用过的点击率(CTR)预估模型!!!
菜鸟的机器学习
28+阅读 · 2017年7月31日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月7日
Arxiv
0+阅读 · 5月27日
Arxiv
0+阅读 · 5月15日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
使用LSTM模型预测股价基于Keras
量化投资与机器学习
35+阅读 · 2018年11月17日
基于LSTM深层神经网络的时间序列预测
论智
22+阅读 · 2018年9月4日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
[推荐] 这些年,我用过的点击率(CTR)预估模型!!!
菜鸟的机器学习
28+阅读 · 2017年7月31日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员