LLM-based agents are becoming central to software engineering tasks, yet evaluating them remains fragmented and largely model-centric. Existing studies overlook how architectural components, such as planners, memory, and tool routers, shape agent behavior, limiting diagnostic power. We propose a lightweight, architecture-informed approach that links agent components to their observable behaviors and to the metrics capable of evaluating them. Our method clarifies what to measure and why, and we illustrate its application through real world agents, enabling more targeted, transparent, and actionable evaluation of LLM-based agents.


翻译:基于大语言模型的智能体正日益成为软件工程任务的核心,然而对其评估仍呈现碎片化且主要围绕模型本身展开。现有研究忽视了架构组件(如规划器、记忆模块和工具路由器)如何塑造智能体行为,从而限制了评估的诊断能力。我们提出一种轻量级、架构感知的方法,将智能体组件与其可观测行为以及能够评估这些行为的指标联系起来。该方法明确了应测量什么以及为何测量,并通过实际智能体案例展示了其应用,从而实现对基于大语言模型的智能体进行更具针对性、透明度和可操作性的评估。

1
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
通用智能体评估的逻辑架构
专知会员服务
21+阅读 · 2月28日
AI 智能体系统:体系架构、应用场景及评估范式
大语言模型智能体的评估与基准:综述
专知会员服务
49+阅读 · 2025年7月31日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
28+阅读 · 2025年2月17日
大语言模型智能体
专知会员服务
98+阅读 · 2024年12月25日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
77+阅读 · 2023年9月6日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
【大数据】大数据参考架构和关键技术(综合)
产业智能官
14+阅读 · 2018年11月22日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
《美国战争部2027财年军事人员预算》
专知会员服务
0+阅读 · 12分钟前
伊朗战争中的电子战
专知会员服务
2+阅读 · 52分钟前
大语言模型平台在国防情报应用中的对比
专知会员服务
4+阅读 · 今天3:12
美海军“超配项目”
专知会员服务
5+阅读 · 今天2:13
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
10+阅读 · 4月21日
《军用自主人工智能系统的治理与安全》
专知会员服务
7+阅读 · 4月21日
《系统簇式多域作战规划范畴论框架》
专知会员服务
10+阅读 · 4月20日
相关VIP内容
通用智能体评估的逻辑架构
专知会员服务
21+阅读 · 2月28日
AI 智能体系统:体系架构、应用场景及评估范式
大语言模型智能体的评估与基准:综述
专知会员服务
49+阅读 · 2025年7月31日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
28+阅读 · 2025年2月17日
大语言模型智能体
专知会员服务
98+阅读 · 2024年12月25日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
77+阅读 · 2023年9月6日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员