As LLMs are deployed in high-stakes settings, users must judge the correctness of individual responses, often relying on model-generated justifications such as reasoning chains or explanations. Yet, no standard measure exists for whether these justifications help users distinguish correct answers from incorrect ones. We formalize this idea as error verifiability and propose $v_{\text{bal}}$, a balanced metric that measures whether justifications enable raters to accurately assess answer correctness, validated against human raters who show high agreement. We find that neither common approaches, such as post-training and model scaling, nor more targeted interventions recommended improve verifiability. We introduce two methods that succeed at improving verifiability: reflect-and-rephrase (RR) for mathematical reasoning and oracle-rephrase (OR) for factual QA, both of which improve verifiability by incorporating domain-appropriate external information. Together, our results establish error verifiability as a distinct dimension of response quality that does not emerge from accuracy improvements alone and requires dedicated, domain-aware methods to address.


翻译:随着大语言模型被部署在高风险场景中,用户必须判断单个回答的正确性,通常依赖模型生成的论证(如推理链或解释)来做出判断。然而,目前缺乏标准度量来评估这些论证是否帮助用户区分正确与错误回答。我们将这一概念形式化为错误可验证性,并提出$v_{\text{bal}}$,一种平衡度量,用于衡量论证是否使评分者能够准确评估回答的正确性,并通过对高一致性的人类评分者的验证进行确认。我们发现,常见方法(如后训练和模型扩展)以及推荐的更有针对性的干预措施均未能提升可验证性。我们引入了两种成功提升可验证性的方法:用于数学推理的反思-重述方法和用于事实性问答的预言-重述方法,这两种方法通过融入领域适当的外部信息来提升可验证性。综合来看,我们的研究结果表明,错误可验证性是回答质量的一个独立维度,它不会仅通过准确性的提升而自然出现,需要专门的、领域感知的方法来加以解决。

0
下载
关闭预览

相关内容

大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
美国军方使用的10种反无人机武器(2026年更新)
专知会员服务
2+阅读 · 今天4:07
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关VIP内容
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员