Detecting when a language model is wrong without ground truth labels is a fundamental challenge for safe deployment. Existing approaches rely on a model's own uncertainty -- such as token entropy or confidence scores -- but these signals fail critically on the most dangerous failure mode: confident errors, where a model is wrong but certain. In this work we introduce cross-model disagreement as a correctness indicator -- a simple, training-free signal that can be dropped into existing production systems, routing pipelines, and deployment monitoring infrastructure without modification. Given a model's generated answer, cross-model disagreement computes how surprised or uncertain a second verifier model is when reading that answer via a single forward pass. No generation from the verifying model is required, and no correctness labels are needed. We instantiate this principle as Cross-Model Perplexity (CMP), which measures the verifying model's surprise at the generating model's answer tokens, and Cross-Model Entropy (CME), which measures the verifying model's uncertainty at those positions. Both CMP and CME outperform within-model uncertainty baselines across benchmarks spanning reasoning, retrieval, and mathematical problem solving (MMLU, TriviaQA, and GSM8K). On MMLU, CMP achieves a mean AUROC of 0.75 against a within-model entropy baseline of 0.59. These results establish cross-model disagreement as a practical, training-free approach to label-free correctness estimation, with direct applications in deployment monitoring, model routing, selective prediction, data filtering, and scalable oversight of production language model systems.


翻译:在没有真实标签的情况下检测语言模型何时出错,是实现安全部署的基本挑战。现有方法依赖于模型自身的不确定性——例如词元熵或置信度分数——但这些信号在最危险的故障模式(即模型错误但有把握的自信性错误)中会严重失效。本文提出将跨模型分歧作为正确性指标——这是一种简单、无需训练的信号,可直接集成到现有生产系统、路由管道和部署监控基础设施中而无需修改。给定模型生成的答案后,跨模型分歧通过单次前向传播计算第二个验证模型在读取该答案时的惊讶程度或不确定性。该方法无需验证模型生成内容,也不需要任何正确性标签。我们将此原则实例化为跨模型困惑度(CMP)和跨模型熵(CME):CMP衡量验证模型对生成模型答案词元的惊讶程度,CME衡量验证模型在这些位置的不确定性。在涵盖推理、检索和数学问题求解的基准测试(MMLU、TriviaQA、GSM8K)中,CMP和CME均优于模型内不确定性基线。在MMLU上,CMP的平均AUROC达到0.75,而模型内熵基线的平均AUROC为0.59。这些结果确立了跨模型分歧作为一种实用且无需训练的无标签正确性估计方法,可直接应用于生产语言模型系统的部署监控、模型路由、选择性预测、数据过滤和可扩展监督。

0
下载
关闭预览

相关内容

实值无标签图文跨模态检索研究综述
专知会员服务
14+阅读 · 2024年9月22日
【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
【MIT博士论文】保证性生成模型,155页pdf
专知会员服务
31+阅读 · 2023年8月8日
【CVPR2021】跨模态检索的概率嵌入
专知会员服务
20+阅读 · 2021年3月2日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员