As Large Language Models (LLMs) evolve from code generators into collaborative partners for software engineers, our methods for evaluation are lagging. Current benchmarks, focused on code correctness, fail to capture the nuanced, interactive behaviors essential for successful human-AI partnership. To bridge this evaluation gap, this paper makes two core contributions. First, we present a foundational taxonomy of desirable agent behaviors for enterprise software engineering, derived from an analysis of 91 sets of user-defined agent rules. This taxonomy defines four key expectations of agent behavior: Adhere to Standards and Processes, Ensure Code Quality and Reliability, Solving Problems Effectively, and Collaborating with the User. Second, recognizing that these expectations are not static, we introduce the Context-Adaptive Behavior (CAB) Framework. This emerging framework reveals how behavioral expectations shift along two empirically-derived axes: the Time Horizon (from immediate needs to future ideals), established through interviews with 15 expert engineers, and the Type of Work (from enterprise production to rapid prototyping, for example), identified through a prompt analysis of a prototyping agent. Together, these contributions offer a human-centered foundation for designing and evaluating the next generation of AI agents, moving the field's focus from the correctness of generated code toward the dynamics of true collaborative intelligence.


翻译:随着大型语言模型(LLM)从代码生成器演变为软件工程师的协作伙伴,我们的评估方法却相对滞后。当前以代码正确性为核心的基准测试,未能捕捉到成功人机协作所必需的、细致入微的交互行为。为弥合这一评估鸿沟,本文做出两项核心贡献。首先,我们通过对91组用户定义的代理规则进行分析,提出了一个面向企业软件工程所需代理行为的基础分类法。该分类法定义了代理行为的四个关键预期:遵循标准与流程、确保代码质量与可靠性、有效解决问题以及与用户协作。其次,认识到这些预期并非一成不变,我们引入了情境自适应行为框架。这一新兴框架揭示了行为预期如何沿着两个经验推导的维度发生动态变化:一是时间跨度(从即时需求到未来理想),这一维度通过对15位专家工程师的访谈确立;二是工作类型(例如,从企业级生产到快速原型开发),这一维度通过对一个原型开发代理的提示分析而识别。这些贡献共同为设计和评估下一代AI代理提供了一个人本主义基础,将领域焦点从生成代码的正确性转向真正协作智能的动态过程。

0
下载
关闭预览

相关内容

人工智能指导的现实问题非线性优化,Meta AI Yuandong Tian
专知会员服务
32+阅读 · 2023年3月3日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员