Large language models (LLMs) often generate unreliable answers, while heuristic uncertainty methods fail to fully distinguish correct from incorrect predictions, causing users to accept erroneous answers without statistical guarantees. We address this issue through the lens of false discovery rate (FDR) control, ensuring that among all accepted predictions, the proportion of errors does not exceed a target risk level. To achieve this in a principled way, we propose LEC, which reinterprets selective prediction as a constrained decision problem by enforcing a Linear Expectation Constraint over selection and error indicators. Then, we establish a finite-sample sufficient condition, which relies only on a held-out set of exchangeable calibration samples, to compute an FDR-constrained, coverage-maximizing threshold. Furthermore, we extend LEC to a two-model routing mechanism: given a prompt, if the current model's uncertainty exceeds its calibrated threshold, we delegate it to a stronger model, while maintaining a unified FDR guarantee. Evaluations on closed-ended and open-ended question-answering (QA) datasets show that LEC achieves tighter FDR control and substantially improves sample retention over prior methods. Moreover, the two-model routing mechanism achieves lower risk levels while accepting more correct samples than each individual model.


翻译:大型语言模型(LLM)常生成不可靠的答案,而启发式不确定性方法无法完全区分正确与错误预测,导致用户在缺乏统计保证的情况下接受错误答案。我们通过错误发现率(FDR)控制的视角解决此问题,确保在所有接受的预测中,错误比例不超过目标风险水平。为实现这一目标,我们提出LEC方法,通过在选择指标与错误指标上施加线性期望约束,将选择性预测重新阐释为约束决策问题。随后,我们建立了一个有限样本充分条件,该条件仅依赖于一组可交换的校准样本,以计算FDR约束下覆盖范围最大化的阈值。此外,我们将LEC扩展至双模型路由机制:给定一个提示,若当前模型的不确定性超过其校准阈值,则将其委托给更强的模型,同时保持统一的FDR保证。在封闭式和开放式问答(QA)数据集上的评估表明,LEC实现了更严格的FDR控制,并显著提高了样本保留率,优于现有方法。此外,双模型路由机制在接收更多正确样本的同时,达到了更低的风险水平。

0
下载
关闭预览

相关内容

【TPAMI2024】序列操作对排名聚合的攻击:理论与算法
专知会员服务
14+阅读 · 2024年8月15日
【ICML2024】TIMEX++: 通过信息瓶颈学习时间序列解释
专知会员服务
17+阅读 · 2024年5月16日
【CVPR2021】现实世界域泛化的自适应方法
专知会员服务
58+阅读 · 2021年3月31日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【TPAMI2024】序列操作对排名聚合的攻击:理论与算法
专知会员服务
14+阅读 · 2024年8月15日
【ICML2024】TIMEX++: 通过信息瓶颈学习时间序列解释
专知会员服务
17+阅读 · 2024年5月16日
【CVPR2021】现实世界域泛化的自适应方法
专知会员服务
58+阅读 · 2021年3月31日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
相关资讯
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员