As large language models become increasingly capable, it is critical that their outputs can be easily checked by less capable systems. Prover-verifier games can be used to improve checkability of model outputs, but display a degradation in accuracy compared to a baseline trained only to maximize correctness -- a phenonemon named legibility tax. We propose a solution by decoupling the correctness from the checkability condition and instead training a "translator" model that turns a fixed solver model's solution into a checkable form. This allows us to first train the solver to maximize correctness, and then train the translator to translate the solver into a checkable form while retaining the solver's answer. To accommodate this new objective of translation, we formulate a decoupled prover-verifier game where the equilibria correspond to faithful and checkable translators.


翻译:随着大型语言模型能力日益增强,确保其输出能够被能力较低的系统轻松验证变得至关重要。证明者-验证者博弈可用于提升模型输出的可验证性,但与仅以最大化正确性为目标训练的基线模型相比,其准确性会出现下降——这一现象被称为可读性代价。我们提出一种解决方案:将正确性条件与可验证性条件解耦,转而训练一个"翻译器"模型,将固定求解器模型的解转换为可验证形式。这使得我们可以先训练求解器以最大化正确性,再训练翻译器将求解器的解转换为可验证形式,同时保留求解器的答案。为适应这种新的翻译目标,我们构建了一种解耦证明者-验证者博弈,其均衡态对应着忠实且可验证的翻译器。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
机器学习的可解释性
专知会员服务
180+阅读 · 2020年8月27日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
“史诗怒火”行动中的无人机与反无人机作战
专知会员服务
2+阅读 · 今天15:41
Claw AI Lab:从自动写论文到交互式AI研究实验室
专知会员服务
5+阅读 · 5月24日
美以伊冲突中的无人机反防空作战
专知会员服务
7+阅读 · 5月23日
安杜里尔与Meta研发军用智能眼镜的内幕
专知会员服务
7+阅读 · 5月22日
超越步调威胁:整合人工智能以加速指挥决策
专知会员服务
14+阅读 · 5月22日
Nature三连发AI自主科学发现论文
专知会员服务
9+阅读 · 5月21日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员