As large language models become increasingly capable, it is critical that their outputs can be easily checked by less capable systems. Prover-verifier games can be used to improve checkability of model outputs, but display a degradation in accuracy compared to a baseline trained only to maximize correctness -- a phenonemon named legibility tax. We propose a solution by decoupling the correctness from the checkability condition and instead training a "translator" model that turns a fixed solver model's solution into a checkable form. This allows us to first train the solver to maximize correctness, and then train the translator to translate the solver into a checkable form while retaining the solver's answer. To accommodate this new objective of translation, we formulate a decoupled prover-verifier game where the equilibria correspond to faithful and checkable translators.


翻译:随着大型语言模型能力日益增强,确保其输出能够被能力较低的系统轻松验证变得至关重要。证明者-验证者博弈可用于提升模型输出的可验证性,但与仅以最大化正确性为目标训练的基线模型相比,其准确性会出现下降——这一现象被称为可读性代价。我们提出一种解决方案:将正确性条件与可验证性条件解耦,转而训练一个"翻译器"模型,将固定求解器模型的解转换为可验证形式。这使得我们可以先训练求解器以最大化正确性,再训练翻译器将求解器的解转换为可验证形式,同时保留求解器的答案。为适应这种新的翻译目标,我们构建了一种解耦证明者-验证者博弈,其均衡态对应着忠实且可验证的翻译器。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
机器学习的可解释性
专知会员服务
179+阅读 · 2020年8月27日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Arxiv
0+阅读 · 3月2日
Arxiv
0+阅读 · 2月19日
VIP会员
最新内容
《2026年美国/以色列-伊朗冲突》
专知会员服务
1+阅读 · 今天1:30
《美国与伊朗的冲突》美国会服务处报告
专知会员服务
2+阅读 · 今天1:27
美国对伊朗军事行动:弹药与反导
专知会员服务
1+阅读 · 今天1:25
超越技术:伊朗冲突中的“战争方式”
专知会员服务
11+阅读 · 4月1日
军事决策大语言模型综合评价基准
专知会员服务
8+阅读 · 4月1日
《美军混合航空器军用适航认证路线图》84页
专知会员服务
7+阅读 · 4月1日
量子无人机与未来军事战争
专知会员服务
13+阅读 · 4月1日
迈向医学人工智能科学家
专知会员服务
13+阅读 · 4月1日
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员