As AI-generated and AI-assisted content floods online spaces, source labels attached to such content can distort human reasoning judgments, with downstream consequences for moderation, evaluation, and decision-making. Whether LLMs share this vulnerability, or offer more source-agnostic evaluation, remains an open question with direct implications for human-AI collaboration. We examine this issue using logical fallacies as a controlled setting to isolate source-label effects on reasoning quality, independent of domain knowledge. We conduct an online study (N=505) where participants are assigned to a source condition (human, AI, human with AI assistance, AI with human assistance, or no disclosure) and evaluate comments containing logical fallacies, comparing their judgments with those of LLMs (GPT-5.2, Gemini 2.5 Flash, Claude Sonnet 4.5), who were evaluated across the same source conditions. Human evaluators were significantly more susceptible to fallacies labeled as written by human or human with AI assistance and assigned higher trust and evaluation ratings in these conditions. LLM evaluations remained comparatively stable across source labels, though performance varied across models. Confidence levels were similarly high across conditions for both humans and LLMs, regardless of fallacy presence. Our findings indicate that source-label bias in reasoning evaluation is primarily a human vulnerability and highlight the potential of human-LLM collaboration in increasingly AI-mediated environments.


翻译:随着人工智能生成及辅助内容充斥网络空间,此类内容附带的来源标签可能扭曲人类推理判断,对内容审核、评估与决策产生下游影响。大语言模型是否同样存在这一漏洞,抑或能提供更独立于来源的评估,这一开放性问题直接关系到人机协作。我们以逻辑谬误为受控场景,独立于领域知识来隔离来源标签对推理质量的影响。通过在线研究(N=505),参与者被随机分配至不同来源条件(人类、AI、人类辅助AI、AI辅助人类、无信息披露),对包含逻辑谬误的评论进行评价,并将结果与相同来源条件下的大语言模型(GPT-5.2、Gemini 2.5 Flash、Claude Sonnet 4.5)评估结果进行对比。人类评估者对标注为"人类撰写"或"人类辅助AI"的谬误表现出显著更高的易感性,并在这些条件下赋予更高的信任度与评分。大语言模型的评估在不同来源标签间保持相对稳定,但模型间存在性能差异。无论谬误是否存在,人类与模型在各类条件下的置信度均维持高水平。研究结果表明,推理评估中的来源标签偏倚主要源于人类自身,并凸显了在日益AI中介化的环境中人机协作的潜力。

0
下载
关闭预览

相关内容

大模型错因诊断分析
专知会员服务
9+阅读 · 4月9日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型中的逻辑推理:综述
专知会员服务
48+阅读 · 2025年2月15日
大语言模型的知识冲突:成因、根源与展望
专知会员服务
13+阅读 · 2024年9月23日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
《大型语言模型归因》综述
专知会员服务
75+阅读 · 2023年11月8日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
中文对比英文自然语言处理NLP的区别综述
AINLP
18+阅读 · 2019年3月20日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
大模型错因诊断分析
专知会员服务
9+阅读 · 4月9日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型中的逻辑推理:综述
专知会员服务
48+阅读 · 2025年2月15日
大语言模型的知识冲突:成因、根源与展望
专知会员服务
13+阅读 · 2024年9月23日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
《大型语言模型归因》综述
专知会员服务
75+阅读 · 2023年11月8日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员