ICML 2026 Oral｜大模型为何难被提示纠正？内部先验限制标注适应性

导读

当大语言模型被用作数据标注器或“LLM 评审”时，人们往往默认一件事：只要在提示词里把任务定义写清楚，模型就会按照这一定义工作。比如，用户规定什么叫“仇恨言论”、什么叫“冒犯性内容”，模型理应暂时放下自己的既有理解，依据当前规则完成分类。 ICML 2026 Oral & Spotlight 论文 On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance 对这一假设进行了系统检验。论文发现，LLM 并不是一张可以被提示词任意改写的白纸。模型在预训练、指令微调和偏好对齐中已经形成了关于“毒性”“仇恨”“冒犯”等概念的内部边界；外部定义能够推动这个边界，却很难彻底覆盖它。作者区分了两种容易混淆的“熟悉度”。第一种是模型是否记住了数据集中的具体文本，第二种是模型内部的任务概念是否与数据集的标注定义一致。实验显示，真正与零样本标注准确率稳定相关的，不是文本记忆，而是定义特定熟悉度（Definition-Specific Familiarity，DSF）。在控制数据集差异后，DSF 与准确率的偏相关达到 +0.41，而 ROUGE-L、BERTScore 和嵌入相似度三类文本记忆指标都没有呈现正相关。更值得警惕的是“决策黏性”。提供正确任务定义、少样本示例乃至自动优化提示后，模型当然会改变一部分答案，但总体只能挽救 34.8% 的零样本错误；接近三分之二的错误仍然保留。零样本置信度越高，错误越难纠正：置信度高于 0.9 时，救援概率降至 20.8%。三轮迭代纠错也没有解决问题，高置信错误最终仅有 8.5% 被改正。与此同时，模型面对错误或错配定义时并不会简单忽略指令。狭窄的“仇恨言论”定义会使模型少报正例，宽泛的“游戏毒性”定义会使模型多报正例，说明它确实在响应定义。然而，模型在错配条件下仍保持约 85%—91% 的高置信度，校准曲线也无法把正确定义与错误定义区分开来。换言之，模型可能十分自信地执行一套并不适合当前数据集的标注政策。这篇论文给 LLM 标注实践带来的核心提醒是：提示词不是任务定义的绝对控制器，置信度也不是定义正确性的报警器。 与其盲目更换更大的模型或继续堆叠提示技巧，不如先测量模型与任务定义的概念对齐程度，再通过多种定义表述进行敏感性测试，并同时报告救援率、破坏率和预测偏差。

论文基本信息

论文题目：On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance

中文题目：大语言模型适应性的边界：模型内部先验对标注任务性能的影响

作者：Etienne Casanova、Rafal Kocielnik、R. Michael Alvarez 作者单位：California Institute of Technology（加州理工学院）会议信息：ICML 2026 Oral & Spotlight，PMLR 306 论文版本：arXiv:2606.00467v1，2026 年 5 月 30 日提交研究方向：LLM 数据标注、LLM-as-a-Judge、提示可控性、模型内部先验、置信度校准、任务定义对齐代码地址：https://github.com/andreadu2/LLMadapt

摘要

大语言模型越来越多地被用作零样本标注器，但这种用法隐含地假设：模型会忠实执行用户给出的任务定义，而不是依赖训练期间形成的既有概念。本文研究模型内部先验如何限制这种适应能力，并区分两种潜在影响因素：对具体数据文本的记忆，以及模型内部概念与目标任务定义之间的语义一致性。作者在 9 个指令微调模型、5 个主要毒性与仇恨言论数据集上开展实验，并通过额外数据集进行稳健性和跨任务验证。结果显示，文本记忆指标无法解释标注性能；相反，作者提出的定义特定熟悉度 DSF 与零样本准确率呈稳定正相关。模型内部概念越接近数据集的操作性定义，标注结果越准确。外部知识注入只能有限纠正既有错误。正确任务定义、少样本示例和提示自动优化最多只能挽救 34.8% 的零样本错误，却可能破坏最多 22.1% 的原本正确预测。模型对初始判断表现出显著黏性，尤其是高置信错误最难被提示改变。当用户提供与数据集不匹配的定义时，模型会根据定义范围调整决策阈值，但仍保持高置信度。正确定义、错配定义和零样本条件表现出相似的过度自信，说明自报告置信度无法可靠识别任务定义错误。论文据此认为，LLM 标注流程应优先评估模型与任务定义的语义对齐程度，而不能仅依赖更大的模型、更多提示或置信度过滤。

1 Introduction / 引言

从“模型会听指令”这一假设出发

LLM 零样本标注之所以有吸引力，是因为它把传统监督学习中的数据准备流程大幅压缩了。用户不必先组织大规模人工标注数据，只需在提示词中提供任务名称、标签空间与任务定义，模型便可以批量处理文本。同样的逻辑也支撑着 LLM-as-a-Judge：研究者给出评分标准，模型对回答质量、安全性或相关性作出判断。问题在于，这种工作方式默认用户定义能够支配模型行为。现实中的模型却已经通过海量语料、指令数据和偏好优化形成了自己的概念先验。例如，“仇恨言论”通常要求针对受保护身份群体，而“毒性内容”可能包含更宽泛的辱骂、威胁和破坏性行为。若模型内部将两者混为一体，那么即使提示中写入严格定义，它也可能继续沿用更熟悉的边界。作者把这种张力概括为：模型内部概念与外部任务定义之间的竞争。 论文不只询问“加定义是否提升平均准确率”，而是追踪同一条文本在不同提示条件下是否被改判、错误是否被修复、正确答案是否被破坏，以及模型对这些变化有多大信心。图 1：研究框架与三个研究问题。左侧展示零样本标注流程；右侧依次考察任务熟悉度是否决定性能、正确提示能否挽救零样本错误，以及错配定义是否损害性能并降低置信度。来源：原论文图 1。

三个研究问题

RQ1：熟悉度与性能。 模型对数据文本或任务定义的熟悉程度，会如何影响标注准确率？作者特别比较“记住具体文本”和“内部概念对齐定义”这两条解释路径。 RQ2：决策黏性。 当模型在零样本条件下已经答错时，正确定义、少样本示例或优化提示能在多大程度上把错误纠正回来？初始置信度是否会影响错误的可纠正性？ RQ3：错配敏感性。 当模型收到语义相关但并不适合当前数据集的定义时，它会忽略定义、服从定义，还是在两者之间折中？自报告置信度能否提示这种错配风险？为回答这些问题，论文将总体准确率与逐样本行为变化结合起来。这样的设计很重要，因为平均准确率可能掩盖两种方向相反的变化：一个提示既可以修复部分错误，也可能把原本正确的答案改错。如果只看净提升，就会低估提示干预的副作用。

LLM 的可引导性与可控性

已有研究通常通过指令遵循、少样本学习、提示优化或多轮反思来提高模型可控性。但“模型是否改变输出”并不等同于“模型是否朝正确方向改变”。某个模型可能非常容易被提示推动，却同时容易受到错误定义和恶意指令影响；另一个模型可能保持稳定，却因此难以纠正已有错误。本文因此把可引导性视为双刃剑，并同时测量救援与破坏。这个视角比单纯比较提示前后准确率更细致：它把“可改变”与“可正确改变”分开了。

LLM 作为标注器和评审

LLM 在文本分类、社会科学编码、内容安全和自动评测中已经取得接近甚至超过众包标注者的结果。然而，不同研究使用的任务定义、标签规范和数据领域差异很大。模型在一个毒性数据集上表现良好，并不意味着它能无缝迁移到另一套“毒性”标准。尤其是在主观任务中，标签不是自然界中唯一正确的属性，而是由标注政策操作化出来的判断。两个数据集可能都使用“toxic”标签，却对身份攻击、一般辱骂、讽刺和游戏干扰行为采用不同边界。模型若沿用最熟悉的概念，就可能与目标数据集系统性偏离。

模型内部先验与标注可靠性

论文所说的“模型内部先验”并不特指某一个训练阶段。它可能来自预训练语料中的常见用法，也可能来自指令微调对任务格式的强化，还可能来自 RLHF、DPO 等后训练过程对安全概念和拒答行为的塑造。作者有意采用阶段无关的表述，因为仅观察指令微调模型的输出，无法确定概念锚定究竟在哪个阶段产生。相关的基准污染研究主要关心模型是否见过测试集、能否复现文本，常用 Min-K% Prob、ROUGE、BERTScore 或续写检测等方法。本文则提出另一种可能：即使模型从未记住任何具体样本，只要它对任务概念的默认理解与数据集定义一致，仍然可以取得较高准确率。

置信度与校准

如果模型能意识到“当前定义与我的既有概念冲突”，置信度或许可以成为风险信号。但现有研究表明，LLM 的口头置信度常常过高，并且受提示格式影响。作者选择自报告的 0—100 置信度，是为了同时覆盖不开源 token 概率的闭源模型，并在全部模型上使用完全相同的输出模板和温度 0 设置。

3 Methods / 方法

论文提出一个分析框架，用来研究模型内部先验的“熟悉度”与提示干预的“对齐”如何共同影响标注表现。方法部分依次定义熟悉度指标、可引导性指标和完整实验设置。

3.1 Familiarity Metrics / 熟悉度指标

# 文本熟悉度

文本熟悉度用于检测模型是否可能记住了数据集中的具体文本。作者截取每条文本前 40% 作为前缀，让模型续写剩余部分，并比较生成续写与真实后缀的相似程度。主指标是 ROUGE-L F1，它依据最长公共子序列测量复现程度。为避免结论依赖单一词面指标，论文又加入两种更语义化的记忆代理：使用 DeBERTa-XL 上下文表示的 BERTScore F1，以及句向量余弦相似度。三类指标形成从词面复制、上下文匹配到整体语义复现的连续谱。如果文本记忆确实驱动准确率，那么至少应有一类指标在控制数据集差异后与性能正相关。

# 定义特定熟悉度

DSF 测量模型内部任务概念与数据集官方定义之间的语义一致性。以毒性分类为例，作者不直接给模型展示数据集定义，而是询问“用你自己的话解释，什么使一段内容具有毒性”。随后将模型生成的概念解释与数据集完整定义编码为向量并计算语义相似度。为了减弱单一嵌入模型的偏好，最终 DSF 是六种句向量编码器结果的无权平均，包括 MiniLM、MPNet、BGE-large、E5-large、Instructor-large 和 OpenAI text-embedding-3-small。六种编码器得到的 DSF 排序高度一致，两两相关均超过约 0.87；各编码器的 DSF 与准确率偏相关也都为正。 DSF 的实用价值在于，它不需要先完成大规模标注，也不要求访问模型内部参数。只需任务定义和少量概念询问，就可以提前估计某个“模型—定义”组合是否匹配。这使它有潜力成为正式标注前的低成本筛选工具。表 1：熟悉度指标与零样本标注准确率的相关性。在控制数据集差异后，三种文本记忆指标均不呈正相关，只有共识 DSF 保持明显正相关。来源：原论文表 4。

3.2 Steerability Metrics / 可引导性指标

作者把零样本输出视为模型内部先验的基线表现，再观察提示干预如何改变逐样本预测。核心指标包括： 变化率（Change Rate）：加入定义或示例后，有多少标签相对零样本发生翻转。它反映模型是否响应指令，但不判断改变方向是否正确。 救援率（Rescue Rate）：在零样本答错的样本中，提示后有多少变为正确，即 P(提示后正确 | 零样本错误)。它描述正确行为通过提示是否“可到达”。 破坏率（Corruption Rate）：在零样本答对的样本中，提示后有多少变为错误，即 P(提示后错误 | 零样本正确)。它揭示干预可能造成的副作用。 预测偏差（Prediction Bias）：模型预测正例比例减去数据集真实正例比例。负值表示漏报倾向，正值表示过报倾向，可用于观察定义范围如何改变决策阈值。 **决策黏性（Decision Stickiness）**则指模型的错误，尤其是高置信错误，在追加信息后仍抵抗纠正的现象。论文通过救援率随零样本置信度的变化以及混合效应逻辑回归进行检验。

# 概念替换与错配定义

RQ3 采用“概念替换”构造错配：将另一个数据集的定义用于当前数据集。所有定义都属于毒性、仇恨或冒犯这一相关概念族，但操作边界不同。狭窄定义要求内容针对种族、宗教、性别等身份群体；宽泛定义则可能覆盖一般辱骂、威胁和破坏性游戏行为。这比随机塞入完全无关指令更接近真实部署风险。实践中的问题通常不是用户把情感分析定义用于毒性分类，而是不同团队都说自己在标注“有害内容”，实际采用的边界却不一致。

# 置信度采集

所有分类提示末尾都要求模型严格输出预测标签和 0—100 的置信度。除数据集对应的正类标签词不同外，模板在所有模型和条件中保持一致，推理温度为 0。这样可以比较零样本、正确定义、少样本和错配定义下的自报告置信度。

3.3 Experimental Setup / 实验设置

# 模型

实验覆盖 9 个指令微调模型：Llama-3.1-8B、Llama-3.1-70B、Llama-3.3-70B、Mistral-7B、Mistral-Small-24B、Mixtral-8x7B、DeepSeek-V3、GPT-4o-mini 和 Qwen-2.5-72B。其中 6 个开放权重模型构成统计推断核心，用于 RQ2、RQ3 的混合效应回归；GPT-4o-mini、Llama-3.3-70B 和 Qwen-2.5-72B 加入全部主要数据集和提示条件，用来验证描述性结论能否延伸到更广泛、较新的模型。

# 数据集

5 个主要数据集分别是 Twitter Hate、OLID、GameTox、Fox News 和 Jigsaw Toxic Comments，覆盖社交媒体、游戏聊天、新闻评论和论坛等场景。它们共享相关标签概念，却具有不同的官方定义和正例比例。论文还使用 3 个补充数据集。Jigsaw Unintended Bias 用于减少身份群体标签偏差这一混淆，并把 DSF 分析扩展为 9 个模型乘 6 个数据集，共 54 个模型—数据集组合；SemEval-2018 Irony 与 Subjectivity 则用于检验主要结论能否推广到非安全类二分类任务。

# 提示条件

主实验包含五类提示设置：

零样本：只提供任务名称，不给额外定义或示例。
正确定义：提供任务名称和目标数据集的官方定义。
少样本：提供任务名称和 4 个随机、类别平衡的示例。
少样本加定义：同时提供正确定义和 4 个示例。
错配定义：替换为其他数据集的定义，共 6 个范围不同的变体。

此外，作者对全部 9 个模型运行两种 DSPy 自动优化条件：自动选择少样本示例的 DSPy Optimized，以及将选择示例与正确定义结合的 DSPy Aligned。将 6 个错配变体分别计算后，实验实际覆盖 10 个手工提示条件和 2 个 DSPy 条件。每个数据集—模型组合随机抽取 1000 条样本。RQ1 使用控制数据集的偏相关和带聚类稳健标准误的回归；RQ2、RQ3 使用以文本为随机截距、以模型、提示条件和领域为固定效应的混合效应逻辑回归，从而处理同一文本在多种条件下被重复预测造成的相关性。

4 Results / 结果

总体性能：提示有帮助，但平均增益有限

正确定义把九个模型的平均准确率从零样本的 80.3% 提升到 82.0%，平均增加 2.2 个百分点左右；少样本和“少样本加定义”分别达到 81.5% 和 81.6%。这些提升是真实的，但远小于“给出准确任务规范就能重写模型行为”的理想预期。 DSPy 自动优化也没有突破明显上限。DSPy Optimized 平均为 80.2%，DSPy Aligned 为 81.5%，分别与零样本和正确定义基线相差不到 0.5 个百分点。更重要的是，自动优化并非对所有模型有益：Llama-3.1-8B 从 76.7% 降至 72.3%，Llama-3.3-70B 从 80.5% 降至 77.5%。这些结果不意味着提示工程无效，而是说明平均性能上限不能简单归因于提示写得不够好。即使加入正确定义、示例和自动搜索，模型内部概念仍然构成稳定约束。表 2：9 个模型在不同提示条件下的准确率与 AUC。正确定义总体优于零样本，但增益有限；DSPy 自动优化存在明显模型差异，错配定义的平均 AUC 最低。来源：原论文表 3。

4.1 Answering RQ1: Impact of Model Familiarity / 模型熟悉度的影响

原始相关性看起来似乎支持一个反直觉结论：模型越能复现数据集文本，准确率反而越低。ROUGE-L、BERTScore 和嵌入相似度与准确率的原始相关分别为 -0.80、-0.76 和 -0.71。但作者指出，这些数值受到数据集难度严重混淆，例如 Jigsaw 同时具有较高文本熟悉度和较低任务准确率。控制数据集之后，三类文本记忆指标的偏相关分别为 -0.19、-0.15 和 -0.16，都没有变成正相关。也就是说，从纯词面到语义复现，模型“见过或记住文本”的程度都不能解释为什么某个模型在该任务上更准确。 DSF 的模式完全不同。其原始相关为 +0.74，控制数据集后仍达到 +0.41，p=0.003，样本为 54 个模型—数据集组合。六种嵌入模型各自计算得到的偏相关都为正，范围为 +0.30 到 +0.49，说明结论并非由某个编码器偶然造成。在少样本条件下，DSF 与准确率的偏相关进一步升至 +0.62。加入正确定义后则降至 +0.25，且统计显著性减弱。作者的解释是，明确写出定义缩小了不同模型内部概念造成的差异，却没有完全消除这种差异。在讽刺识别与主观性识别两个非安全任务上，DSF 同样与零样本准确率正相关，偏相关为 +0.343。因此，“概念对齐优于文本记忆”并不只适用于毒性检测。这一结果把模型选择问题从“哪个模型更大、更强”改写为“哪个模型的概念边界更接近当前定义”。同一个模型可能非常适合一种毒性规范，却不适合另一种看似同名的标签体系。

4.2 Answering RQ2: Impact of Knowledge Injection / 外部知识注入的影响

混合效应回归显示，领域差异是准确性的强预测因素：相对于论坛数据，游戏领域答对的优势比约为 13.85，社交媒体约为 5.45。正确定义本身带来的优势比仅为 1.08，再次说明任务和数据领域比提示微调具有更大的解释力。最关键的变量是“零样本是否正确”。若某条样本在零样本阶段已经答对，那么加入定义或示例后继续答对的优势比达到 6.43。提示更擅长巩固模型已有的正确判断，而不是把已有错误改成正确答案。从救援率看，所有模型和提示条件汇总后只有 34.8% 的零样本错误被纠正，意味着近三分之二错误抵抗提示。不同模型差异明显：Mistral-Small-24B 的救援率为 44.2%，高于参数更大的 Llama-3.1-70B 的 31.3%；Qwen-2.5-72B 为 27.8%。因此，可引导性并不随模型规模单调增加。表 3：混合效应回归关键结果及各模型救援率。零样本正确对提示后正确具有很强预测力，而零样本置信度升高会降低错误被救援的可能性。来源：原论文表 5、表 6。

# 高置信错误最难纠正

错误救援概率与零样本置信度呈倒 U 形。在置信度 0.6—0.7 的中间区域，救援概率达到 51.8%；当置信度超过 0.9 时，救援概率快速下降到 20.8%。回归结果也显示，零样本置信度每增加一个标准差，救援优势下降 16%，对应 OR=0.84。极低置信区域的救援率同样偏低，但原因不同。这些样本数量少、文本明显更短，很多是“noob”“wtf”“bot”之类依赖上下文的游戏片段。作者将其视为上下文不足和分布外输入造成的失败，而不是高置信决策黏性的反例。图 2：零样本错误的救援概率随初始置信度变化。中等置信度错误最容易被修复；右侧高置信错误表现出明显决策黏性，左侧极低置信区域主要对应短文本与上下文缺失。来源：原论文图 3。

# 多轮纠错也难以打破黏性

附录进一步测试三轮、带历史记录的纠错流程：第一轮加入少样本示例，第二轮再加入正确定义，第三轮明确要求模型重新考虑。累计救援率从第一轮的 7.5% 上升到第三轮的 18.7%，仍低于主实验的一次性汇总救援率 34.8%；高置信错误三轮后仅有 8.5% 被纠正。这个结果说明，决策黏性并不只是单轮提示写法造成的。模型看到自己此前的答案、置信度和新增证据后，仍可能围绕最初判断进行自洽化，而不是重新建立任务边界。

# 稳健性与跨任务验证

在专门减少身份群体标注偏差的 Jigsaw Unintended Bias 数据集上，9 个模型的救援率仍全部低于 50%，说明结果不是标准 Jigsaw 标签偏差的特例。在讽刺识别和主观性识别任务上，少样本提示的总体救援率为 45.0%，高于毒性任务的 34.8%，但仍有超过一半的零样本错误无法修复。决策黏性因此也不是内容安全任务独有的现象。

4.3 Answering RQ3: Misalignment Impact / 定义错配的影响

面对错配定义，模型并没有完全忽略提示。狭窄定义要求身份群体定向攻击，模型因此减少正例预测，偏差达到约 -7% 至 -12%；宽泛定义覆盖更多破坏性或冒犯行为，模型则增加正例预测，偏差达到 +9% 至 +13%。这说明模型会按照定义范围移动决策阈值。但是，准确率变化并不总与定义是否“正确”一致。平均而言，最差的“游戏毒性”错配定义准确率为 76.4%，比正确定义低 5.6 个百分点；Fox News 仇恨言论定义却达到 82.6%，比正确定义高 0.6 个百分点。一种可能解释是，某些替代定义虽然在规范上错配，却更接近数据集实际标签边界或模型内部最熟悉的概念。对于高度主观的标签，数据集书面定义、人工标注实践和模型概念之间并不一定完全一致。因此，“官方定义”并不自动等于对当前模型最有效的表述。表 4：不同定义范围下的错配分析。模型会随定义改变标签、正例偏差和准确率，但所有条件仍保持较高置信度。来源：原论文表 7。

# 定义选择比模型选择带来更大波动

在所有模型与数据集上，定义选择最多带来约 17 个百分点的准确率变化。例如 Fox News 数据集在不同定义下从 61.6% 到 78.4%；相比之下，模型选择平均只造成约 5 个百分点变化。对于 LLM 标注，认真设计和验证任务定义，可能比单纯换用更大的模型更重要。可引导性还存在收益与风险的耦合。容易被定义推动的模型往往既有较高救援率，也有较高破坏率。Mistral-Small-24B 在 Twitter 仇恨定义下的救援率可达 73.7%，同时破坏率也达到 21.0%。模型越容易被正确提示改好，也越可能被错误定义带偏。

# 关键校准失败：错配时依然自信

正确做法似乎应该是：当新定义与模型已有概念或数据分布冲突时，模型提高不确定性。但实验得到相反结果。零样本平均置信度为 87.0%，正确定义为 88.1%，不同错配定义在 85.0%—90.6% 之间，几乎没有系统性下降。最狭窄的 Fox News 仇恨定义甚至给出最高置信度。论文正文指出该条件在相关分析中达到约 91.2% 的高置信表现，而汇总表中的跨模型均值仍为 90.6%。无论采用哪一统计口径，结论都一致：错配没有触发有效风险信号。校准曲线进一步显示，零样本、正确定义和错配定义都位于理想对角线下方，表现为过度自信；三条曲线之间没有足够清晰的分离。实践者不能依赖置信度阈值发现“模型正在执行错误标注政策”。图 3：零样本、正确定义与错配定义条件下的置信度校准曲线。三类条件均明显过度自信，正确与错误定义之间缺乏可用于风险检测的分离。来源：原论文图 4。

5 Discussion / 讨论

定义对齐比数据污染更能解释标注表现

在基准评测中，人们经常首先怀疑模型是否记住了测试数据。本文并没有否认训练数据污染的存在，而是指出：对于跨模型、跨数据集的标注准确率差异，文本复现能力提供的解释很弱，概念边界是否匹配任务定义才是更稳定的因素。这要求评估流程从“模型是否见过这些句子”扩展到“模型如何理解这个标签”。同一个标签词可能对应多套规范，审计数据重叠无法替代对概念对齐的检查。

提示难以推翻已经形成的错误判断

平均准确率的小幅提升容易制造一种乐观印象：既然加入定义后更好了，继续优化提示就能进一步解决问题。但逐样本分析表明，提示主要保护已有正确答案，对已有错误的救援能力有限。尤其当模型已经高置信答错时，正确定义和示例很难撬动判断。这对自动标注流水线很关键。如果只抽查低置信样本，很多最顽固的错误反而会被遗漏，因为它们恰恰带着很高置信度。高置信不等于高可修复性，也不等于定义适配。

错配定义会改变行为，却不会可靠暴露风险

模型会字面响应定义范围，这证明提示确实具有控制作用；但内部先验又提供了一个行为锚点，使模型即使在错误定义下也不会完全失控。两种机制共同作用，导致某些错配条件只产生温和性能下降，甚至偶然提升准确率。这种稳定性既可能是保护，也可能是风险。它能防止一个措辞不佳的定义立即摧毁全部性能，却也使系统难以察觉任务政策已经偏移。自报告置信度表达的是“在给定指令前提下，我对答案有多确定”，而不是“这套指令是否适合目标数据集”。

对 LLM 标注流程的实践建议

作者据此提出三类轻量保障措施。第一，在大规模标注前测量定义对齐。可以使用 DSF 式概念询问，比较多个候选模型对任务的自然解释与正式定义之间的距离，提前筛选模型—定义组合。第二，对定义做压力测试。不要只评估唯一一版提示，而应准备多种合理表述、范围更窄和更宽的邻近定义，报告准确率、预测偏差、救援率和破坏率的敏感性。第三，不把置信度当作定义适当性的代理。置信度可以辅助样本级质量控制，但无法判断标签政策本身是否与数据集、组织目标或人工标注规范一致。

局限性与未来工作

论文的主要实验集中于毒性相关的二分类任务。虽然作者在讽刺和主观性识别上复制了 DSF 与决策黏性的方向，但多分类、序列标注、开放式评分和复杂 rubric 评审可能具有不同失效模式。错配采用相关概念之间的定义替换，尚未覆盖更强、更隐蔽或对抗性的规范冲突。DSF 依赖模型生成概念解释与句向量相似度，虽然六种编码器结果一致，但其他距离度量、提问方式和多语言环境仍需检验。全部实验对象都是指令微调模型，因此低救援率究竟来自能力不足，还是安全对齐有意限制可操控性，当前设计无法区分。论文也不能确定概念锚定来自预训练、指令微调还是偏好对齐。要回答这一问题，需要对同一模型家族的基础模型与后训练版本进行受控比较。最后，DSF 与准确率、置信度与黏性的关系仍是相关性证据。若要建立因果结论，需要通过定向微调等干预手段主动改变 DSF，同时控制其他因素，再观察准确率和可纠正性如何变化。

6 Conclusion / 结论

本文系统研究了模型内部先验与提示控制在 LLM 标注任务中的相互作用。跨 9 个模型和 5 个主要毒性数据集，决定零样本表现的关键不是模型能否复现具体文本，而是模型内部概念与任务定义是否一致。控制数据集难度后，共识 DSF 与准确率偏相关为 +0.41，三类文本记忆指标则均不呈正相关。正确定义、少样本示例和自动提示优化可以带来平均收益，却很难修复模型已经形成的错误。总体救援率只有 34.8%，高置信错误尤其顽固；多轮纠错也未能消除决策黏性。与此同时，模型会响应错配定义并移动决策阈值，却仍保持高置信度，使置信度无法成为定义错误的可靠检测器。论文最终把 LLM 标注的工程重点从“继续写更强的提示、继续换更大的模型”转向“先验证模型内部概念是否适合当前任务定义”。对于需要可复现、可审计的标注或自动评审系统，任务定义不是提示词中的一段背景说明，而是必须被独立设计、测试和报告的一等实验变量。

原文信息

论文：On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance 作者：Etienne Casanova、Rafal Kocielnik、R. Michael Alvarez 会议：ICML 2026 Oral & Spotlight，PMLR 306 论文链接：https://arxiv.org/abs/2606.00467 PDF 链接：https://arxiv.org/pdf/2606.00467 代码链接：https://github.com/andreadu2/LLMadapt

成为VIP会员查看完整内容