Beyond Similarity: Task-Aligned Retrieval for Language Models - 专知论文

会员服务 ·

0

相似性 · 语义相似性 · 对齐 · 上下文 · 语言模型 ·

Beyond Similarity: Task-Aligned Retrieval for Language Models

翻译：超越相似性：面向语言模型的任务对齐检索

Zhixing Sun,Shenghe Xu,Tao Li

Retrieval-augmented generation (RAG) ranks passages by semantic similarity to the input, implicitly assuming that semantic similarity is a reliable indication of applicability in downstream tasks. This assumption breaks down when task success depends not on topical relevance but on applying the correct rules, constraints, or procedural guidance. In such settings, the most useful context may be the rule triggered by the input rather than the most semantically similar passage. We propose Task-Aligned Retrieval (TAG), a retrieval framework that replaces similarity-based retrieval with applicability-based rule selection. TAG transforms source documents into traceable condition-action rules, identifies which rules apply to a given input through pairwise LLM judgments, and generates the output conditioned only on the selected actions. We empirically observe that across Wikipedia NPOV rewriting, HumanEval with PEP~8 compliance, and NBA transaction reasoning on RuleArena, TAG consistently outperforms standard RAG, with the largest gains in high-mismatch settings (up to 12.2\%) while reducing retrieved context by up to 93\%. These results suggest that, in rule- and instruction-governed tasks, retrieval should optimize for applicability rather than for semantic similarity alone.

翻译：检索增强生成（RAG）根据与输入的语义相似性对段落进行排序，隐含假设语义相似性是下游任务适用性的可靠指标。当任务成功取决于正确规则、约束或程序性指导的应用而非主题相关性时，这一假设便不再成立。在此类场景中，最有效的上下文可能是输入所触发的规则，而非最语义相似的段落。我们提出任务对齐检索（TAG），这是一种用基于适用性的规则选择取代基于相似性检索的框架。TAG将源文档转化为可追溯的条件-行为规则，通过成对LLM判断识别哪些规则适用于给定输入，并仅基于所选行为生成输出。实验表明，在维基百科NPOV重写、符合PEP 8规范的HumanEval以及RuleArena上的NBA交易推理任务中，TAG始终优于标准RAG，在高不匹配场景下提升幅度最大可达12.2%，同时将检索上下文缩减高达93%。这些结果表明，在规则与指令驱动的任务中，检索应优先优化适用性而非仅依赖语义相似性。

0

相关内容

相似性

【博士论文】用于搜索的 Transformer 模型：检索、鲁棒性与拒绝机制

【博士论文】用于搜索的 Transformer 模型：检索、鲁棒性与拒绝机制

专知会员服务

10+阅读 · 2月8日

迈向可信的检索增强生成：大语言模型综述

迈向可信的检索增强生成：大语言模型综述

专知会员服务

30+阅读 · 2025年2月12日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

38+阅读 · 2025年1月28日

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

专知会员服务

101+阅读 · 2024年5月13日

《大型语言模型中基于检索的文本生成》综述

《大型语言模型中基于检索的文本生成》综述

专知会员服务

60+阅读 · 2024年4月18日

【WWW2024】元认知检索-增强大型语言模型

【WWW2024】元认知检索-增强大型语言模型

专知会员服务

50+阅读 · 2024年2月26日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知会员服务

22+阅读 · 2020年8月28日

超越三元组:基于超关系知识图谱嵌入的链接预测，Beyond Triplets: Hyper-Relational Knowledge Graph Embedding for Link Prediction

专知会员服务

78+阅读 · 2020年5月11日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

AI科技评论

18+阅读 · 2019年6月25日

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

机器之心

24+阅读 · 2019年5月7日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

开放知识图谱

11+阅读 · 2018年10月4日

谷歌 AI：语义文本相似度研究进展

谷歌 AI：语义文本相似度研究进展

AI研习社

22+阅读 · 2018年6月13日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于多关联数据融合的疾病相似度算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于语义网络的街区场景相似性研究

国家自然科学基金

4+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

Beyond Chunks and Graphs: Retrieval-Augmented Generation through Triplet-Driven Thinking

Arxiv

0+阅读 · 6月15日

Beyond Retrieval: Learning Compact User Representations for Scalable LLM Personalization

Arxiv

0+阅读 · 6月13日

Sentinel: Decoding Context Utilization via Attention Probing for Efficient LLM Context Compression

Arxiv

0+阅读 · 6月12日

Learning to Reason by Analogy via Retrieval-Augmented Reinforcement Fine-Tuning

Arxiv

0+阅读 · 6月11日

CoDeR: Local Constraint-Compatible Retrieval Beyond Semantic Similarity

Arxiv

0+阅读 · 6月11日

RAG over Thinking Traces Can Improve Reasoning Tasks

Arxiv

0+阅读 · 6月8日

Beyond Matching: Category-Guided Latent Intent Reasoning for Generative Retrieval in E-Commerce

Arxiv

0+阅读 · 6月5日

Beyond Similarity Search: A Unified Data Layer for Production RAG Systems

Arxiv

0+阅读 · 5月5日

Beyond Semantic Search: Towards Referential Anchoring in Composed Image Retrieval

Arxiv

0+阅读 · 4月7日

A Survey on Retrieval-Augmented Text Generation for Large Language Models

Arxiv

17+阅读 · 2024年4月17日

VIP会员

文章信息

相关主题

语义相似性

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

1+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

【博士论文】用于搜索的 Transformer 模型：检索、鲁棒性与拒绝机制

【博士论文】用于搜索的 Transformer 模型：检索、鲁棒性与拒绝机制

专知会员服务

10+阅读 · 2月8日

迈向可信的检索增强生成：大语言模型综述

迈向可信的检索增强生成：大语言模型综述

专知会员服务

30+阅读 · 2025年2月12日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

38+阅读 · 2025年1月28日

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

专知会员服务

101+阅读 · 2024年5月13日

《大型语言模型中基于检索的文本生成》综述

《大型语言模型中基于检索的文本生成》综述

专知会员服务

60+阅读 · 2024年4月18日

【WWW2024】元认知检索-增强大型语言模型

【WWW2024】元认知检索-增强大型语言模型

专知会员服务

50+阅读 · 2024年2月26日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知会员服务

22+阅读 · 2020年8月28日

超越三元组:基于超关系知识图谱嵌入的链接预测，Beyond Triplets: Hyper-Relational Knowledge Graph Embedding for Link Prediction

专知会员服务

78+阅读 · 2020年5月11日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

AI科技评论

18+阅读 · 2019年6月25日

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

机器之心

24+阅读 · 2019年5月7日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

开放知识图谱

11+阅读 · 2018年10月4日

谷歌 AI：语义文本相似度研究进展

谷歌 AI：语义文本相似度研究进展

AI研习社

22+阅读 · 2018年6月13日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Beyond Chunks and Graphs: Retrieval-Augmented Generation through Triplet-Driven Thinking

Arxiv

0+阅读 · 6月15日

Beyond Retrieval: Learning Compact User Representations for Scalable LLM Personalization

Arxiv

0+阅读 · 6月13日

Sentinel: Decoding Context Utilization via Attention Probing for Efficient LLM Context Compression

Arxiv

0+阅读 · 6月12日

Learning to Reason by Analogy via Retrieval-Augmented Reinforcement Fine-Tuning

Arxiv

0+阅读 · 6月11日

CoDeR: Local Constraint-Compatible Retrieval Beyond Semantic Similarity

Arxiv

0+阅读 · 6月11日

RAG over Thinking Traces Can Improve Reasoning Tasks

Arxiv

0+阅读 · 6月8日

Beyond Matching: Category-Guided Latent Intent Reasoning for Generative Retrieval in E-Commerce

Arxiv

0+阅读 · 6月5日

Beyond Similarity Search: A Unified Data Layer for Production RAG Systems

Arxiv

0+阅读 · 5月5日

Beyond Semantic Search: Towards Referential Anchoring in Composed Image Retrieval

Arxiv

0+阅读 · 4月7日

A Survey on Retrieval-Augmented Text Generation for Large Language Models

Arxiv

17+阅读 · 2024年4月17日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于多关联数据融合的疾病相似度算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于语义网络的街区场景相似性研究

国家自然科学基金

4+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员