Understanding an agent's goals helps explain and predict its behaviour, yet there is no established methodology for reliably attributing goals to agentic systems. We propose a framework for evaluating goal-directedness that integrates behavioural evaluation with interpretability-based analyses of models' internal representations. As a case study, we examine an LLM agent navigating a 2D grid world towards a goal state. Behaviourally, we evaluate the agent against optimal policies across varying grid sizes, obstacle densities, and goal structures, finding that performance scales with task difficulty while remaining robust to difficulty-preserving transformations and multi-goal structures. We then use probing methods to decode internal representations of the environment and multi-step action plans. We find that the LLM agent non-linearly encodes a coarse spatial map, preserving approximate task-relevant cues about its position and the goal location; that its actions are broadly consistent with these internal representations; and that reasoning reorganises them, shifting from spatial cues towards immediate action selection. Our findings support the view that introspective examination is required beyond behavioural evaluations to characterise how agents represent and pursue their objectives.


翻译:理解代理的目标有助于解释和预测其行为,但目前尚无成熟的方法论可可靠地将目标归因于代理系统。我们提出一个将行为评估与基于可解释性的模型内部表征分析相结合的目标导向性评估框架。以案例研究为例,我们考察一个在二维网格世界中导航至目标状态的LLM代理。在行为层面,我们针对不同网格大小、障碍物密度和目标结构,将该代理与最优策略进行对比评估,发现其性能随任务难度提升而扩展,同时对难度保持性变换与多目标结构具有鲁棒性。随后,我们利用探测方法解码环境与多步行动计划的内部表征。研究发现:该LLM代理以非线性方式编码粗糙的空间地图,仅保留关于自身位置及目标位置的近似任务相关线索;其行动与这些内部表征基本一致;推理会重组表征,使表征从空间线索转向即时动作选择。本研究结果支持以下观点:除行为评估外,还需通过内省性分析来刻画代理如何表征并追求目标。

0
下载
关闭预览

相关内容

大语言模型智能体的评估与基准:综述
专知会员服务
50+阅读 · 2025年7月31日
【斯坦福博士论文】大语言模型的AI辅助评估
专知会员服务
31+阅读 · 2025年3月30日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
大型语言模型代理的安全与隐私综述
专知会员服务
30+阅读 · 2024年8月5日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
特定目标情感分析——神经网络这是要逆天么
计算机研究与发展
14+阅读 · 2017年9月5日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 20分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 37分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关资讯
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
特定目标情感分析——神经网络这是要逆天么
计算机研究与发展
14+阅读 · 2017年9月5日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员