As the era of autonomous agents making decisions on behalf of users unfolds, ensuring contextual integrity (CI) -- what is the appropriate information to share while carrying out a certain task -- becomes a central question to the field. We posit that CI demands a form of reasoning where the agent needs to reason about the context in which it is operating. To test this, we first prompt LLMs to reason explicitly about CI when deciding what information to disclose. We then extend this approach by developing a reinforcement learning (RL) framework that further instills in models the reasoning necessary to achieve CI. Using a synthetic, automatically created, dataset of only $\sim700$ examples but with diverse contexts and information disclosure norms, we show that our method substantially reduces inappropriate information disclosure while maintaining task performance across multiple model sizes and families. Importantly, improvements transfer from this synthetic dataset to established CI benchmarks such as PrivacyLens that has human annotations and evaluates privacy leakage of AI assistants in actions and tool calls. Our code is available at: https://github.com/EricGLan/CI-RL


翻译:随着自主代理为用户进行决策的时代到来,确保情境完整性——即在执行特定任务时分享何种信息是恰当的——成为该领域的核心问题。我们主张,情境完整性要求一种推理形式,即代理需要对其所处的情境进行推理。为验证这一点,我们首先通过提示大语言模型在决定披露信息时对情境完整性进行显式推理。随后,我们通过开发一个强化学习框架来扩展此方法,该框架进一步向模型灌输实现情境完整性所需的推理能力。利用一个仅包含约700个示例但具有多样化情境与信息披露规范的自动生成合成数据集,我们证明该方法能显著减少不当信息披露,同时在多种模型规模与系列中保持任务性能。重要的是,由此合成数据集获得的性能提升能够迁移至已建立的情境完整性基准测试(如具有人工标注并评估AI助手在行动与工具调用中隐私泄露的PrivacyLens)。我们的代码公开于:https://github.com/EricGLan/CI-RL

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
面向大型语言模型推理的可信研究综述
专知会员服务
22+阅读 · 2025年9月6日
《基于大语言模型的数学推理与优化研究综述》
专知会员服务
33+阅读 · 2025年3月26日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
49+阅读 · 2025年1月17日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
面向大型语言模型推理的可信研究综述
专知会员服务
22+阅读 · 2025年9月6日
《基于大语言模型的数学推理与优化研究综述》
专知会员服务
33+阅读 · 2025年3月26日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
49+阅读 · 2025年1月17日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员