Instruction-tuned large language models produce helpful, structured responses, but how robust is this helpfulness under trivial constraints? We show that simple lexical constraints (banning a single punctuation character or common word) cause instruction-tuned LLMs to collapse their responses, losing 14--48\% of comprehensiveness across seven models spanning five families (7B--70B, open- and closed-weight). A blinded human evaluation with 10 STEM-trained evaluators confirms genuine content loss, with information criteria degrading $1.5$--$2.3\times$ more than surface criteria, a finding corroborated by over 4,100 automated pairwise comparisons (77--100\% baseline preference) across three LLM judges from two model families. Diagnostic analysis identifies this as a \emph{planning failure}: two-pass generation recovers 59--96\% of response length, and linear probes on prompt representations predict response length with $R^2 = 0.51$--$0.94$ before generation begins. The same probes yield negative $R^2$ on base models, confirming that instruction tuning introduces the representational structure underlying the collapse. Base models show no systematic degradation under identical constraints, demonstrating that instruction tuning couples task competence to narrow surface-form templates. The effect extends to realistic deployment constraints (preamble suppression, corporate tone guidelines, legal compliance hedging, accessibility requirements) causing comparable degradation ($-$22\% to $-$34\%), with suppressing the conversational opener alone (``Certainly!'') causing 40\% collapse on our most fragile model despite restricting only the opening tokens. We further show that standard independent LLM-as-judge evaluation detects only a 3.5\% quality drop where pairwise evaluation reveals 23\%, exposing a methodological blind spot in current evaluation practice.


翻译:指令调优的大语言模型能生成有帮助、结构化的回应,但在琐碎约束下,这种帮助性的稳健性如何?我们表明,简单的词汇约束(禁止单个标点字符或常见单词)会导致指令调优的LLM回应崩溃,在跨越五个家族(7B–70B,开源和闭源权重)的七个模型中,综合性的损失达14–48%。一项由10位STEM训练评估者进行的盲人人类评估证实了真实的内容损失,信息标准的退化比表面标准高出1.5–2.3倍,这一发现得到了来自两个模型家族的三个LLM评判者进行的超过4100次自动配对比较(77–100%的基线偏好)的佐证。诊断分析将此识别为一种“规划失败”:两步生成恢复了59–96%的回应长度,且在生成开始前,对提示表示的线性探针预测回应长度的R²为0.51–0.94。同样的探针在基础模型上给出负的R²,证实指令调优引入了崩溃背后的表示结构。基础模型在相同约束下未显示系统性退化,证明指令调优将任务能力耦合到狭窄的表面形式模板。该效应扩展到现实部署约束(前言抑制、企业语气指南、法律合规对冲、可访问性要求),导致类似退化(–22%到–34%),仅抑制对话开场白(“当然!”)就导致我们最脆弱模型上40%的崩溃,尽管仅限制开头标记。我们进一步表明,标准的独立LLM-as-judge评估仅检测到3.5%的质量下降,而配对评估揭示23%,暴露了当前评估实践中的方法论盲点。

0
下载
关闭预览

相关内容

【NeurIPS 2025】视觉指令瓶颈微调
专知会员服务
6+阅读 · 2025年10月5日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
接入大模型的眼睛:一文纵览多模态指令
专知会员服务
84+阅读 · 2023年9月28日
《大型语言模型指令调优》综述
专知会员服务
74+阅读 · 2023年8月27日
MIMIC-IT:多模态上下文指令调优
专知会员服务
40+阅读 · 2023年6月11日
一文读懂「Attention is All You Need」| 附代码实现
PaperWeekly
37+阅读 · 2018年1月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
5+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员