LLM agents complete complex tasks by composing multiple skills, and skill retrieval is a front-end stage for agents. Skill retrieval differs fundamentally from traditional document retrieval at the supervision level: top-K joint correctness depends not only on the semantic relevance of each individual query-skill pair, but also on whether the skills retrieved together can collaborate to fulfill the task under the given query. Such "skill compatibility" cannot be derived from independent relevance alone. Yet existing LLM-based data synthesis pipelines can produce a direct supervision signal for "which skills should not be jointly retrieved under this query" -- namely the LLM's own rejection decisions -- and this signal is routinely discarded as low-quality data. To address this gap, we propose Reject-as-Resource Retriever (R3) and construct R3-Skill, a bilingual (Chinese-English) skill retrieval benchmark targeting realistic agent skill routing. R3-Skill spans four language directions, features query phrasings close to real user requests, and is verified through multi-expert cross-checking. On R3-Skill, we build a two-stage retrieval system (R3-Embedding + R3-Reranker) with skill compatibility as an explicit training signal. Gradient analysis shows that the "push-away" signal is diluted by bilateral balancing in the bi-encoder but acts as lossless graded ranking supervision in the cross-encoder -- motivating its placement at the cross-encoder stage, as confirmed by ablations on two datasets. The R3-Embedding + R3-Reranker pipeline attains Hit@1 = 0.7714, NDCG@10 = 0.8327 and Set-Compat = 0.3525 on R3-Skill. The dataset, training code and model weights are released as open source for agent skill routing.


翻译:LLM智能体通过组合多种技能完成复杂任务,技能检索是智能体的前置阶段。在监督层面,技能检索与传统文档检索存在根本差异:Top-K联合正确性不仅取决于每个查询-技能对的独立语义相关性,还取决于检索到的技能组合能否在给定查询下协作完成任务。这种"技能兼容性"无法从独立相关性中推导得出。然而,现有基于LLM的数据合成流水线可以产生"哪些技能不应在此查询下被联合检索"的直接监督信号——即LLM自身的拒绝决策——这一信号常被视为低质量数据而丢弃。为弥补这一空缺,我们提出拒绝即资源检索器(Reject-as-Resource Retriever, R3),并构建了面向真实智能体技能路由的双语(中-英)技能检索基准R3-Skill。R3-Skill涵盖四个语言方向,采用接近真实用户请求的查询措辞,并通过多专家交叉验证。在R3-Skill上,我们构建了以技能兼容性为显式训练信号的两阶段检索系统(R3-Embedding + R3-Reranker)。梯度分析表明,"推开"信号在双编码器中因双边平衡而被稀释,但在交叉编码器中可作为无损分级排序监督信号——这促使我们将其置于交叉编码器阶段,两个数据集上的消融实验证实了该设计。R3-Embedding + R3-Reranker流水线在R3-Skill上达到Hit@1=0.7714、NDCG@10=0.8327、Set-Compat=0.3525。数据集、训练代码及模型权重已开源,用于智能体技能路由。

0
下载
关闭预览

相关内容

智能体技能综合综述:分类、技术与应用
专知会员服务
33+阅读 · 5月11日
LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
OpenAI 32页《智能体》指南,如何构建首个智能体系统
专知会员服务
50+阅读 · 2025年4月18日
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
《打造“黄金舰队”》57页报告
专知会员服务
0+阅读 · 5分钟前
《北约数字教官网络发展路径》128页报告
专知会员服务
0+阅读 · 24分钟前
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
8+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
10+阅读 · 6月24日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员