Human annotation is central to NLP evaluation, yet subjective tasks often exhibit substantial variability across annotators. While large language models (LLMs) can provide structured reasoning to support annotation, their influence on human annotation behavior remains underexplored. We introduce \textbf{ReasonScaffold}, a scaffolded reasoning annotation protocol that exposes LLM-generated explanations while withholding predicted labels. We study how reasoning affects human annotation behavior in a controlled setting, rather than evaluating annotation accuracy. Using a two-pass protocol inspired by Delphi-style revision, annotators first label instances independently and then revise their decisions after viewing model-generated reasoning. We evaluate the approach on sentiment classification and opinion detection tasks, analyzing changes in inter-annotator agreement and revision behavior. To quantify these effects, we introduce the Annotator Effort Proxy (AEP), a metric capturing the proportion of labels revised after exposure to reasoning. Our results show that exposure to reasoning is associated with increased agreement, along with minimal revision, suggesting that reasoning helps resolve ambiguous cases without inducing widespread changes. These findings provide insight into how reasoning explanations shape annotation consistency and highlight reasoning-based scaffolds as a practical mechanism for human--AI co-annotation workflows.


翻译:人工标注是自然语言处理评估的核心,然而主观任务常因标注者不同而产生显著差异。尽管大语言模型(LLM)能够通过结构化推理辅助标注,但其对人类标注行为的影响仍未被充分探究。本文提出 **ReasonScaffold**——一种脚手架式推理标注协议,该协议暴露LLM生成的解释文本,但隐藏其预测标签。我们聚焦于受控环境下推理如何影响人类标注行为,而非评估标注准确性。采用受德尔菲式修订启发的两阶段协议,标注者首先独立完成标签标注,随后在查阅模型生成的推理后修订其决策。我们在情感分类与观点检测任务上评估该方法,分析标注者间一致性与修订行为的变化。为量化这些效应,我们引入标注者努力代理指标(Annotator Effort Proxy,AEP),该指标衡量受推理影响后修订标签的比例。结果表明:暴露推理与一致性提升显著相关,且伴随极少量修订,说明推理有助于解决歧义案例而不引发大规模修改。这些发现揭示了推理解释如何塑造标注一致性,并凸显了基于推理的脚手架机制作为人机协同标注流程的实用方案。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
高效大语言模型推理服务综述
专知会员服务
18+阅读 · 2025年4月30日
KG-Agent:面向KG复杂推理的高效自治代理框架
专知会员服务
35+阅读 · 2024年6月1日
【AAAI2024】大型语言模型是神经符号推理器
专知会员服务
38+阅读 · 2024年1月18日
【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
77+阅读 · 2023年9月6日
什么是语义角色标注?
人工智能头条
18+阅读 · 2019年4月28日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
最新内容
《特种部队在透明战场中的生存力》最新报告
专知会员服务
0+阅读 · 31分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员