Affordance grounding requires identifying where and how an agent should interact in open-world scenes, where actionable regions are often small, occluded, reflective, and visually ambiguous. Recent systems therefore combine multiple skills (e.g., detection, segmentation, interaction-imagination), yet most orchestrate them with fixed pipelines that are poorly matched to per-instance difficulty, offer limited targeted recovery from intermediate errors, and fail to reuse experience from recurring objects. These failures expose a systems problem: test-time grounding must acquire the right evidence, decide whether that evidence is reliable enough to commit, and do so under bounded inference cost without access to labels. We propose Affordance Agent Harness, a closed-loop runtime that unifies heterogeneous skills with an evidence store and cost control, retrieves episodic memories to provide priors for recurring categories, and employs a Router to adaptively select and parameterize skills. An affordance-specific Verifier then gates commitments using self-consistency, cross-scale stability, and evidence sufficiency, triggering targeted retries before a final judge fuses accumulated evidence and trajectories into the prediction. Experiments on multiple affordance benchmarks and difficulty-controlled subsets show a stronger accuracy-cost Pareto frontier than fixed-pipeline baselines, improving grounding quality while reducing average skill calls and latency. Project page: https://tenplusgood.github.io/a-harness-page/.


翻译:可行性定位要求识别开放世界场景中代理应与环境交互的位置与方式,其中可操作区域往往尺寸小、存在遮挡、具有反光性且视觉歧义性强。现有系统常需整合多种功能(如检测、分割、交互想象),但多数采用固定流水线编排策略,既难以适配不同实例的难度差异,又缺乏针对中间错误的目标性恢复机制,更无法复用反复出现物体的经验。这些不足暴露了一个系统级问题:测试阶段的定位必须在无标签条件下,在可控推理成本内获取正确证据、判定证据可靠性是否足以做出承诺。我们提出可行性代理鞍座,该闭环运行时系统通过证据存储与成本控制统一异构技能,通过检索情节记忆为重复类别提供先验知识,并采用路由器自适应选择与参数化技能。随后,可行性专用验证器利用自洽性、跨尺度稳定性及证据充分性门控承诺,在最终判断器将累积证据与轨迹融合为预测结果前触发针对性重试。在多个可行性基准及难度控制子集上的实验表明,本方法相较固定流水线基线实现了更强的准确率-成本帕累托边界,在降低平均技能调用次数与延迟的同时提升了定位质量。项目页面:https://tenplusgood.github.io/a-harness-page/。

0
下载
关闭预览

相关内容

Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
24+阅读 · 5月28日
大模型的能力边界与指挥控制应用
专知会员服务
84+阅读 · 2025年1月4日
《大模型行业可信应用框架研究报告》(附全文)
专知会员服务
39+阅读 · 2024年9月6日
不可错过!厦大《模式识别》课程,附Slides
专知会员服务
57+阅读 · 2023年6月30日
混合增强视觉认知架构及其关键技术进展
专知会员服务
46+阅读 · 2021年11月20日
推荐系统工程化落地技术点汇总
机器学习与推荐算法
15+阅读 · 2020年7月10日
详解 | 推荐系统的工程实现
AI100
42+阅读 · 2019年3月15日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
携程个性化推荐算法实践
架构文摘
12+阅读 · 2018年1月18日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
1+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
1+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
3+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
2+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关资讯
推荐系统工程化落地技术点汇总
机器学习与推荐算法
15+阅读 · 2020年7月10日
详解 | 推荐系统的工程实现
AI100
42+阅读 · 2019年3月15日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
携程个性化推荐算法实践
架构文摘
12+阅读 · 2018年1月18日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员