Instruction following aims to align Large Language Models (LLMs) with human intent by specifying explicit constraints on how tasks should be performed. However, we reveal a counterintuitive phenomenon: instruction following can paradoxically interfere with LLMs' task-solving capability. We propose a metric, SUSTAINSCORE, to quantify the interference of instruction following with task solving. It measures task performance drop after inserting into the instruction a self-evident constraint, which is naturally met by the original successful model output and extracted from it. Experiments on current LLMs in mathematics, multi-hop QA, and code generation show that adding the self-evident constraints leads to substantial performance drops, even for advanced models such as Claude-Sonnet-4.5. We validate the generality of the interference across constraint types and scales. Furthermore, we identify common failure patterns, and by investigating the mechanisms of interference, we observe that failed cases allocate significantly more attention to constraints compared to successful ones. Finally, we use SUSTAINSCORE to conduct an initial investigation into how distinct post-training paradigms affect the interference, presenting empirical observations on current alignment strategies. We will release our code and data to facilitate further research


翻译:指令遵循旨在通过规定任务执行方式的显式约束,使大语言模型(LLMs)与人类意图对齐。然而,我们揭示了一个反直觉的现象:指令遵循可能悖论性地干扰LLMs的任务求解能力。我们提出了一个度量指标SUSTAINSCORE,用于量化指令遵循对任务求解的干扰程度。该指标通过向指令中插入一个自明约束(该约束自然地被原始成功模型输出所满足,并从中提取),并测量由此导致的任务性能下降。在数学、多跳问答和代码生成任务上对当前LLMs的实验表明,添加自明约束会导致性能显著下降,即使对于Claude-Sonnet-4.5等先进模型也是如此。我们验证了该干扰现象在不同约束类型和规模上的普遍性。此外,我们识别了常见的失败模式,并通过探究干扰机制,观察到失败案例相较于成功案例对约束分配了显著更多的注意力。最后,我们利用SUSTAINSCORE初步探究了不同后训练范式如何影响这种干扰,并对当前对齐策略提出了实证观察。我们将公开代码和数据以促进进一步研究。

0
下载
关闭预览

相关内容

结合知识增强的大型语言模型复杂问题求解综述
专知会员服务
16+阅读 · 2025年5月7日
《大型语言模型指令调优》综述
专知会员服务
73+阅读 · 2023年8月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2013年12月31日
Arxiv
0+阅读 · 1月27日
VIP会员
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员