The capacity of AI agents to effectively handle tasks of increasing duration and complexity continues to grow, demonstrating exceptional performance in coding, deep research, and complex problem-solving evaluations. However, in daily scenarios, the perception of these advanced AI capabilities among general users remains limited. We argue that current evaluations prioritize increasing task difficulty without sufficiently addressing the diversity of agentic tasks necessary to cover the daily work, life, and learning activities of a broad demographic. To address this, we propose AgentIF-OneDay, aimed at determining whether general users can utilize natural language instructions and AI agents to complete a diverse array of daily tasks. These tasks require not only solving problems through dialogue but also understanding various attachment types and delivering tangible file-based results. The benchmark is structured around three user-centric categories: Open Workflow Execution, which assesses adherence to explicit and complex workflows; Latent Instruction, which requires agents to infer implicit instructions from attachments; and Iterative Refinement, which involves modifying or expanding upon ongoing work. We employ instance-level rubrics and a refined evaluation pipeline that aligns LLM-based verification with human judgment, achieving an 80.1% agreement rate using Gemini-3-Pro. AgentIF-OneDay comprises 104 tasks covering 767 scoring points. We benchmarked four leading general AI agents and found that agent products built based on APIs and ChatGPT agents based on agent RL remain in the first tier simultaneously. Leading LLM APIs and open-source models have internalized agentic capabilities, enabling AI application teams to develop cutting-edge Agent products.


翻译:智能体处理日益增长的任务时长和复杂度的能力持续增强,在编码、深度研究和复杂问题解决评估中展现出卓越性能。然而在日常场景中,普通用户对这些先进AI能力的感知仍然有限。我们认为当前评估体系过于强调提升任务难度,未能充分涵盖广大人群日常工作、生活和学习活动所需的多样化智能体任务。为此,我们提出AgentIF-OneDay,旨在检验普通用户能否通过自然语言指令和智能体完成多样化的日常任务。这些任务不仅需要通过对话解决问题,还需理解多种附件类型并交付具体的文件成果。该基准围绕三个以用户为中心的类别构建:开放工作流执行——评估对显式复杂工作流的遵循能力;潜在指令——要求智能体从附件中推断隐含指令;迭代优化——涉及对进行中的工作进行修改或扩展。我们采用实例级评分规则和改进的评估流程,将基于大语言模型的验证与人工判断相结合,使用Gemini-3-Pro实现了80.1%的一致性。AgentIF-OneDay包含104个任务,覆盖767个评分点。我们对四个主流通用智能体进行基准测试,发现基于API构建的智能体产品与基于智能体强化学习的ChatGPT智能体同时处于第一梯队。领先的大语言模型API和开源模型已内化智能体能力,使AI应用团队能够开发前沿的智能体产品。

0
下载
关闭预览

相关内容

AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
2025中国AI Agent商业应用场景洞察研究
专知会员服务
31+阅读 · 2025年8月11日
AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
AI Agent深度(二):2025 Agent元年,AI从L2向L3发展
专知会员服务
39+阅读 · 2025年5月5日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
谷歌《智能体Agent》白皮书,42页pdf
专知会员服务
108+阅读 · 2025年1月5日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
人工智能训练师的再定义
竹间智能Emotibot
10+阅读 · 2019年5月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 1月20日
VIP会员
相关VIP内容
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
2025中国AI Agent商业应用场景洞察研究
专知会员服务
31+阅读 · 2025年8月11日
AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
AI Agent深度(二):2025 Agent元年,AI从L2向L3发展
专知会员服务
39+阅读 · 2025年5月5日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
谷歌《智能体Agent》白皮书,42页pdf
专知会员服务
108+阅读 · 2025年1月5日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员