In this paper, we propose a test-time adaptive agent that performs exploratory inference through posterior-guided belief refinement without relying on gradient-based updates or additional training for LLM agent operating under partial observability. Our agent maintains an external structured belief over the environment state, iteratively updates it via action-conditioned observations, and selects actions by maximizing predicted information gain over the belief space. We estimate information gain using a lightweight LLM-based surrogate and assess world alignment through a novel reward that quantifies the consistency between posterior belief and ground-truth environment configuration. Experiments show that our method outperforms inference-time scaling baselines such as prompt-augmented or retrieval-enhanced LLMs, in aligning with latent world states with significantly lower integration overhead.


翻译:本文提出一种测试时自适应智能体,该智能体通过后验引导的信念优化执行探索式推理,无需依赖基于梯度的更新或对部分可观测环境下运行的LLM智能体进行额外训练。我们的智能体在环境状态上维护外部结构化信念,通过动作条件观测迭代更新该信念,并通过最大化信念空间上的预测信息增益来选择动作。我们使用基于轻量级LLM的代理模型估计信息增益,并通过一种量化后验信念与真实环境配置间一致性的新型奖励机制评估世界对齐性。实验表明,在潜在世界状态对齐任务中,我们的方法优于提示增强或检索增强型LLM等推理时扩展基线方法,且集成开销显著降低。

0
下载
关闭预览

相关内容

面向应用的智能体 AI 系统价值对齐:综述与展望
专知会员服务
23+阅读 · 2025年6月12日
【斯坦福博士论文】具身物体搜索的操作与推理方法
专知会员服务
39+阅读 · 2023年9月13日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员