When Machines Get It Wrong: Large Language Models Perpetuate Autism Myths More Than Humans Do - 专知论文

会员服务 ·

0

人工智能系统 · 系统 · 智能系统 · 语言模型 · 知识 ·

When Machines Get It Wrong: Large Language Models Perpetuate Autism Myths More Than Humans Do

翻译：当机器犯错时：大型语言模型比人类更易传播自闭症误解

Eduardo C. Garrido-Merchán,Adriana Constanza Cirera Tirschtigel

As Large Language Models become ubiquitous sources of health information, understanding their capacity to accurately represent stigmatized conditions is crucial for responsible deployment. This study examines whether leading AI systems perpetuate or challenge misconceptions about Autism Spectrum Disorder, a condition particularly vulnerable to harmful myths. We administered a 30-item instrument measuring autism knowledge to 178 participants and three state-of-the-art LLMs including GPT-4, Claude, and Gemini. Contrary to expectations that AI systems would leverage their vast training data to outperform humans, we found the opposite pattern: human participants endorsed significantly fewer myths than LLMs (36.2% vs. 44.8% error rate; z = -2.59, p = .0048). In 18 of the 30 evaluated items, humans significantly outperformed AI systems. These findings reveal a critical blind spot in current AI systems and have important implications for human-AI interaction design, the epistemology of machine knowledge, and the need to center neurodivergent perspectives in AI development.

翻译：随着大型语言模型成为普遍的健康信息来源，理解其准确表征污名化病症的能力对于负责任部署至关重要。本研究考察了主流人工智能系统是会延续还是挑战关于自闭症谱系障碍的误解——这是一种特别容易受到有害误解影响的病症。我们采用包含30个项目的自闭症知识测量工具，对178名参与者及三种最先进的大型语言模型（包括GPT-4、Claude和Gemini）进行了测试。与预期人工智能系统将利用其海量训练数据超越人类表现的假设相反，我们发现了相反的模式：人类参与者认可的错误观念显著少于大型语言模型（错误率36.2% vs. 44.8%；z = -2.59, p = .0048）。在30个评估项目中，有18个项目人类表现显著优于人工智能系统。这些发现揭示了当前人工智能系统的关键盲区，并对人机交互设计、机器知识的认识论，以及在人工智能开发中需要以神经多样性视角为中心的需求具有重要启示。

0

相关内容

人工智能系统

人工智能系统

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

33+阅读 · 2025年9月27日

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

专知会员服务

34+阅读 · 2024年10月16日

大型语言模型疾病诊断综述

大型语言模型疾病诊断综述

专知会员服务

32+阅读 · 2024年9月21日

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

专知会员服务

25+阅读 · 2024年8月1日

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

专知会员服务

161+阅读 · 2023年8月23日

ChatGPT有什么用? 论大语言模型在教育中的机遇与挑战

ChatGPT有什么用? 论大语言模型在教育中的机遇与挑战

专知会员服务

78+阅读 · 2023年2月15日

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

专知会员服务

23+阅读 · 2022年12月1日

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

专知会员服务

21+阅读 · 2022年3月14日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

ACL 2019 | AI2等提出自动知识图谱构建模型COMET，接近人类表现

ACL 2019 | AI2等提出自动知识图谱构建模型COMET，接近人类表现

机器之心

18+阅读 · 2019年7月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

基于在线社会媒体数据的疾病传播过程中人类行为变化机制与模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

自闭症中基因拷贝数变异及其相互作用网络的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

中枢炎症在术后认知功能障碍中的机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

环境污染物协同易感基因增加自闭症风险的内在分子机制

国家自然科学基金

0+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Knowledge without Wisdom: Measuring Misalignment between LLMs and Intended Impact

Arxiv

0+阅读 · 3月1日

Multilingual Large Language Models do not comprehend all natural languages to equal degrees

Arxiv

0+阅读 · 2月23日

Identifying, Explaining, and Correcting Ableist Language with AI

Arxiv

0+阅读 · 2月23日

Large Language Models and Impossible Language Acquisition: "False Promise" or an Overturn of our Current Perspective towards AI

Arxiv

0+阅读 · 2月17日

Tutoring Large Language Models to be Domain-adaptive, Precise, and Safe

Arxiv

0+阅读 · 2月14日

Large Language Models and Impossible Language Acquisition: "False Promise" or an Overturn of our Current Perspective towards AI

Arxiv

0+阅读 · 2月13日

Large Language Models and Impossible Language Acquisition: "False Promise" or an Overturn of our Current Perspective towards AI

Arxiv

0+阅读 · 2月11日

Large Language Models and Impossible Language Acquisition: "False Promise" or an Overturn of our Current Perspective towards AI

Arxiv

0+阅读 · 2月9日

Large Language Model Agents Are Not Always Faithful Self-Evolvers

Arxiv

0+阅读 · 2月7日

A Survey on Large Language Model based Autonomous Agents

Arxiv

36+阅读 · 2023年8月22日

VIP会员

文章信息

相关主题

人工智能系统

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

6+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

9+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

10+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

15+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

16+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

11+阅读 · 7月18日

相关VIP内容

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

33+阅读 · 2025年9月27日

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

专知会员服务

34+阅读 · 2024年10月16日

大型语言模型疾病诊断综述

大型语言模型疾病诊断综述

专知会员服务

32+阅读 · 2024年9月21日

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

专知会员服务

25+阅读 · 2024年8月1日

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

专知会员服务

161+阅读 · 2023年8月23日

ChatGPT有什么用? 论大语言模型在教育中的机遇与挑战

ChatGPT有什么用? 论大语言模型在教育中的机遇与挑战

专知会员服务

78+阅读 · 2023年2月15日

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

【NeurIPS 2022报告】大语言模型理解，纽约大学David Chalmers

专知会员服务

23+阅读 · 2022年12月1日

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

专知会员服务

21+阅读 · 2022年3月14日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

ACL 2019 | AI2等提出自动知识图谱构建模型COMET，接近人类表现

ACL 2019 | AI2等提出自动知识图谱构建模型COMET，接近人类表现

机器之心

18+阅读 · 2019年7月7日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

机器学习模型的“可解释性”到底有多重要？

机器学习模型的“可解释性”到底有多重要？

中国科学院自动化研究所

20+阅读 · 2018年3月1日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

相关论文

Knowledge without Wisdom: Measuring Misalignment between LLMs and Intended Impact

Arxiv

0+阅读 · 3月1日

Multilingual Large Language Models do not comprehend all natural languages to equal degrees

Arxiv

0+阅读 · 2月23日

Identifying, Explaining, and Correcting Ableist Language with AI

Arxiv

0+阅读 · 2月23日

Large Language Models and Impossible Language Acquisition: "False Promise" or an Overturn of our Current Perspective towards AI

Arxiv

0+阅读 · 2月17日

Tutoring Large Language Models to be Domain-adaptive, Precise, and Safe

Arxiv

0+阅读 · 2月14日

Large Language Models and Impossible Language Acquisition: "False Promise" or an Overturn of our Current Perspective towards AI

Arxiv

0+阅读 · 2月13日

Large Language Models and Impossible Language Acquisition: "False Promise" or an Overturn of our Current Perspective towards AI

Arxiv

0+阅读 · 2月11日

Large Language Models and Impossible Language Acquisition: "False Promise" or an Overturn of our Current Perspective towards AI

Arxiv

0+阅读 · 2月9日

Large Language Model Agents Are Not Always Faithful Self-Evolvers

Arxiv

0+阅读 · 2月7日

A Survey on Large Language Model based Autonomous Agents

Arxiv

36+阅读 · 2023年8月22日

相关基金

基于在线社会媒体数据的疾病传播过程中人类行为变化机制与模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

自闭症中基因拷贝数变异及其相互作用网络的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

中枢炎症在术后认知功能障碍中的机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

环境污染物协同易感基因增加自闭症风险的内在分子机制

国家自然科学基金

0+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员