我们采用博弈论框架中的辅助博弈(assistance games)来研究人类与AI的对齐问题。过去关于辅助博弈的研究探讨了人类和AI助手都能完全观察环境的物理状态的情况。在此基础上,我们将研究推广到人类和助手可能只能部分观察环境的情况,并提出了部分可观察辅助博弈(POAG)。通过POAG框架,我们证明了关于AI助手的多种理论结果。我们首先考虑了观察干扰的问题,展示了三种可能导致最优AI助手干扰人类观察的因素。然后,我们重新审视了关于所谓**关闭开关问题(off-switch problem)**的过去保证,表明部分可观察性对设计能够自我关闭的AI助手提出了新的挑战。最后,我们分析了部分可观察性如何导致通过人类反馈进行强化学习——一种广泛应用于训练AI助手的算法——陷入欺骗性失败模式。我们最后讨论了将这些理论见解转化为改进有益AI助手技术的可能路径。

成为VIP会员查看完整内容
20

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】学习对象和关系的结构化表示
专知会员服务
32+阅读 · 2024年10月14日
【MIT博士论文】物理启发的生成式模型
专知会员服务
35+阅读 · 2024年9月6日
【MIT博士论文】理解与提升机器学习模型的表征鲁棒性
专知会员服务
29+阅读 · 2024年8月26日
【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
37+阅读 · 2023年5月27日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
182+阅读 · 2023年3月24日
Arxiv
27+阅读 · 2023年3月17日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【博士论文】学习对象和关系的结构化表示
专知会员服务
32+阅读 · 2024年10月14日
【MIT博士论文】物理启发的生成式模型
专知会员服务
35+阅读 · 2024年9月6日
【MIT博士论文】理解与提升机器学习模型的表征鲁棒性
专知会员服务
29+阅读 · 2024年8月26日
【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度
【ICML2023】知识蒸馏对模型可解释性的影响
专知会员服务
37+阅读 · 2023年5月27日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员