Affordance Agent Harness: Verification-Gated Skill Orchestration - 专知论文

会员服务 ·

0

可行 · 门控 · 系统 · 交互 · 识别 ·

Affordance Agent Harness: Verification-Gated Skill Orchestration

翻译：可行性代理鞍座：验证门控技能编排

Haojian Huang,Jiahao Shi,Yinchuan Li,Yingcong Chen

from arxiv, 43 pages, 22 figures, 8 tables. Ongoing work

Affordance grounding requires identifying where and how an agent should interact in open-world scenes, where actionable regions are often small, occluded, reflective, and visually ambiguous. Recent systems therefore combine multiple skills (e.g., detection, segmentation, interaction-imagination), yet most orchestrate them with fixed pipelines that are poorly matched to per-instance difficulty, offer limited targeted recovery from intermediate errors, and fail to reuse experience from recurring objects. These failures expose a systems problem: test-time grounding must acquire the right evidence, decide whether that evidence is reliable enough to commit, and do so under bounded inference cost without access to labels. We propose Affordance Agent Harness, a closed-loop runtime that unifies heterogeneous skills with an evidence store and cost control, retrieves episodic memories to provide priors for recurring categories, and employs a Router to adaptively select and parameterize skills. An affordance-specific Verifier then gates commitments using self-consistency, cross-scale stability, and evidence sufficiency, triggering targeted retries before a final judge fuses accumulated evidence and trajectories into the prediction. Experiments on multiple affordance benchmarks and difficulty-controlled subsets show a stronger accuracy-cost Pareto frontier than fixed-pipeline baselines, improving grounding quality while reducing average skill calls and latency. Project page: https://tenplusgood.github.io/a-harness-page/.

翻译：可行性定位要求识别开放世界场景中代理应与环境交互的位置与方式，其中可操作区域往往尺寸小、存在遮挡、具有反光性且视觉歧义性强。现有系统常需整合多种功能（如检测、分割、交互想象），但多数采用固定流水线编排策略，既难以适配不同实例的难度差异，又缺乏针对中间错误的目标性恢复机制，更无法复用反复出现物体的经验。这些不足暴露了一个系统级问题：测试阶段的定位必须在无标签条件下，在可控推理成本内获取正确证据、判定证据可靠性是否足以做出承诺。我们提出可行性代理鞍座，该闭环运行时系统通过证据存储与成本控制统一异构技能，通过检索情节记忆为重复类别提供先验知识，并采用路由器自适应选择与参数化技能。随后，可行性专用验证器利用自洽性、跨尺度稳定性及证据充分性门控承诺，在最终判断器将累积证据与轨迹融合为预测结果前触发针对性重试。在多个可行性基准及难度控制子集上的实验表明，本方法相较固定流水线基线实现了更强的准确率-成本帕累托边界，在降低平均技能调用次数与延迟的同时提升了定位质量。项目页面：https://tenplusgood.github.io/a-harness-page/。

0

相关内容

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

10+阅读 · 6月14日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

24+阅读 · 5月28日

面向战斗模拟空间推理的大语言模型指挥官智能体框架

面向战斗模拟空间推理的大语言模型指挥官智能体框架

专知会员服务

25+阅读 · 3月18日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

大模型的能力边界与指挥控制应用

大模型的能力边界与指挥控制应用

专知会员服务

84+阅读 · 2025年1月4日

《大模型行业可信应用框架研究报告》（附全文）

《大模型行业可信应用框架研究报告》（附全文）

专知会员服务

39+阅读 · 2024年9月6日

不可错过！厦大《模式识别》课程，附Slides

不可错过！厦大《模式识别》课程，附Slides

专知会员服务

57+阅读 · 2023年6月30日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

混合增强视觉认知架构及其关键技术进展

混合增强视觉认知架构及其关键技术进展

专知会员服务

46+阅读 · 2021年11月20日

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

专知会员服务

123+阅读 · 2020年2月24日

推荐系统工程化落地技术点汇总

推荐系统工程化落地技术点汇总

机器学习与推荐算法

15+阅读 · 2020年7月10日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

专知

67+阅读 · 2020年2月24日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知

116+阅读 · 2019年4月9日

详解 | 推荐系统的工程实现

详解 | 推荐系统的工程实现

AI100

42+阅读 · 2019年3月15日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

携程个性化推荐算法实践

携程个性化推荐算法实践

架构文摘

12+阅读 · 2018年1月18日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

核电厂数字化主控室操纵员作业行为动态可靠性分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

行人重识别目标中心编码外观模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

耦合多特征部件的数控装备可靠性建模与评估技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月11日

From Quality Properties to Practice: A Guideline and Workflow for Explainability Requirements

Arxiv

0+阅读 · 6月9日

SkillResolve-Bench: Measuring and Resolving Same-Capability Ambiguity in Agent Skill Retrieval

Arxiv

0+阅读 · 6月9日

SKILL.nb: Selective Formalization and Gated Execution for Durable Agent Workflows

Arxiv

0+阅读 · 6月6日

Methods for Formal Verification of Agent Skills: Three Layers Toward a Mechanically Checkable Capability-Containment Proof

Arxiv

0+阅读 · 5月9日

From Production Envelopes to Executable Schedules: Sound Constructive Refinement for High-Mix Manufacturing

Arxiv

0+阅读 · 5月4日

ScreenParse: Moving Beyond Sparse Grounding with Complete Screen Parsing Supervision

Arxiv

0+阅读 · 5月1日

GeoLink: A 3D-Aware Framework Towards Better Generalization in Cross-View Geo-Localization

Arxiv

0+阅读 · 4月16日

A Unified Memory Perspective for Probabilistic Trustworthy AI

Arxiv

0+阅读 · 3月26日

Geometrically Plausible Object Pose Refinement using Differentiable Simulation

Arxiv

0+阅读 · 3月22日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

4+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

1+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

1+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

3+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

2+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

2+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

3+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

10+阅读 · 6月14日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

24+阅读 · 5月28日

面向战斗模拟空间推理的大语言模型指挥官智能体框架

面向战斗模拟空间推理的大语言模型指挥官智能体框架

专知会员服务

25+阅读 · 3月18日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

大模型的能力边界与指挥控制应用

大模型的能力边界与指挥控制应用

专知会员服务

84+阅读 · 2025年1月4日

《大模型行业可信应用框架研究报告》（附全文）

《大模型行业可信应用框架研究报告》（附全文）

专知会员服务

39+阅读 · 2024年9月6日

不可错过！厦大《模式识别》课程，附Slides

不可错过！厦大《模式识别》课程，附Slides

专知会员服务

57+阅读 · 2023年6月30日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

混合增强视觉认知架构及其关键技术进展

混合增强视觉认知架构及其关键技术进展

专知会员服务

46+阅读 · 2021年11月20日

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

专知会员服务

123+阅读 · 2020年2月24日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

推荐系统工程化落地技术点汇总

推荐系统工程化落地技术点汇总

机器学习与推荐算法

15+阅读 · 2020年7月10日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

居家学习！南京大学吴建鑫教授《模式识别》2020课程，附课件下载

专知

67+阅读 · 2020年2月24日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知

116+阅读 · 2019年4月9日

详解 | 推荐系统的工程实现

详解 | 推荐系统的工程实现

AI100

42+阅读 · 2019年3月15日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

携程个性化推荐算法实践

携程个性化推荐算法实践

架构文摘

12+阅读 · 2018年1月18日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

相关论文

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月11日

From Quality Properties to Practice: A Guideline and Workflow for Explainability Requirements

Arxiv

0+阅读 · 6月9日

SkillResolve-Bench: Measuring and Resolving Same-Capability Ambiguity in Agent Skill Retrieval

Arxiv

0+阅读 · 6月9日

SKILL.nb: Selective Formalization and Gated Execution for Durable Agent Workflows

Arxiv

0+阅读 · 6月6日

Methods for Formal Verification of Agent Skills: Three Layers Toward a Mechanically Checkable Capability-Containment Proof

Arxiv

0+阅读 · 5月9日

From Production Envelopes to Executable Schedules: Sound Constructive Refinement for High-Mix Manufacturing

Arxiv

0+阅读 · 5月4日

ScreenParse: Moving Beyond Sparse Grounding with Complete Screen Parsing Supervision

Arxiv

0+阅读 · 5月1日

GeoLink: A 3D-Aware Framework Towards Better Generalization in Cross-View Geo-Localization

Arxiv

0+阅读 · 4月16日

A Unified Memory Perspective for Probabilistic Trustworthy AI

Arxiv

0+阅读 · 3月26日

Geometrically Plausible Object Pose Refinement using Differentiable Simulation

Arxiv

0+阅读 · 3月22日

相关基金

核电厂数字化主控室操纵员作业行为动态可靠性分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

行人重识别目标中心编码外观模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

耦合多特征部件的数控装备可靠性建模与评估技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员