LCAM: A Framework for Diagnosing Interactional Alignment Failures in Con-versational AI - 专知论文

会员服务 ·

0

对齐 · AI · 交互 · 系统 · 不确定 ·

LCAM: A Framework for Diagnosing Interactional Alignment Failures in Con-versational AI

翻译：LCAM：一种诊断对话式AI交互对齐失败的框架

Manuele Reani,Hongyu Tian

Conversational AI is increasingly used for advice, interpretation, reassurance, and decision support in contexts where users may be vulnerable, uncertain, or dependent on the system's apparent competence. Existing alignment work often focuses on model objectives, preference optimization, or output correctness. Yet, many harms arise through interaction: how systems frame authority, express uncertainty, simulate empathy, support reasoning, and make boundaries legible. This paper introduces the Layered Cognitive Alignment Model (LCAM), a conceptual and normative framework for diagnosing interac-tional alignment failures in conversational AI. LCAM defines alignment as a calibrated fit among system behavior, user goals, task demands, and normative context. It distinguishes five layers of fit: perceptual, semantic, affective, cognitive, and ethical, and two diagnostic polarities of misalignment: underfit and overreach. We apply LCAM to a published LLM counseling example, showing how an apparently supportive response can reinforce harmful beliefs, simulate inappropriate care, and obscure role boundaries. By translating conversational failures into audit and governance questions concerning over-reliance, false intimacy, autonomy erosion, boundary confusion, and inappropriate trust, LCAM offers a theoretical and normative lens for evaluating conversational AI beyond accuracy, helpfulness, or trust.

翻译：对话式AI越来越多地用于用户在脆弱、不确定或依赖系统表面能力的情境中提供建议、解读、安慰和决策支持。现有的对齐工作常聚焦于模型目标、偏好优化或输出正确性。然而，许多危害源于交互本身：系统如何构建权威、表达不确定性、模拟共情、支持推理以及界定边界。本文引入了分层认知对齐模型（LCAM），这是一个概念性和规范性框架，用于诊断对话式AI中的交互对齐失败。LCAM将对齐定义为系统行为、用户目标、任务需求和规范语境之间的校准匹配。它区分了五个匹配层面：感知层、语义层、情感层、认知层和伦理层，以及两种失调的诊断极性：欠匹配和过度干预。我们将LCAM应用于一个已发表的LLM心理咨询实例，展示了一个看似支持性的回应如何强化有害信念、模拟不恰当的关怀并模糊角色边界。通过将对话失败转化为关于过度依赖、虚假亲密、自主性侵蚀、边界混淆和不恰当信任的审计与治理问题，LCAM为在准确性、有用性或信任之外评估对话式AI提供了理论性和规范性的视角。

0

相关内容

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

专知会员服务

19+阅读 · 2月12日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

112页《人工智能对齐：全面性综述》中文版

112页《人工智能对齐：全面性综述》中文版

专知会员服务

159+阅读 · 2024年2月1日

如何应对可迁移攻击？MSU最新《对AI系统可迁移攻击》全面综述数据、过程、模型和系统的攻击架构

如何应对可迁移攻击？MSU最新《对AI系统可迁移攻击》全面综述数据、过程、模型和系统的攻击架构

专知会员服务

30+阅读 · 2023年11月21日

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

专知会员服务

54+阅读 · 2023年11月1日

NeurIPS2020最新《深度对话人工智能》教程，130页ppt

NeurIPS2020最新《深度对话人工智能》教程，130页ppt

专知会员服务

42+阅读 · 2020年12月10日

【清华大学】面向任务的对话系统的最新进展和挑战，Task-oriented Dialog System

【清华大学】面向任务的对话系统的最新进展和挑战，Task-oriented Dialog System

专知会员服务

84+阅读 · 2020年3月24日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

40+阅读 · 2020年1月13日

【清华大学-微软研究院】构建智能开放域对话系统的挑战综述论文，31页pdf，Challenges in Building Intelligent Open-domain Dialog Systems

【清华大学-微软研究院】构建智能开放域对话系统的挑战综述论文，31页pdf，Challenges in Building Intelligent Open-domain Dialog Systems

专知会员服务

28+阅读 · 2019年10月23日

【ICML 2019 Tutorials】(Neural Approaches to Conversational AI)，微软高级研究员| Michel Galley，微软研究经理|高剑峰

【ICML 2019 Tutorials】(Neural Approaches to Conversational AI)，微软高级研究员| Michel Galley，微软研究经理|高剑峰

专知会员服务

17+阅读 · 2019年6月10日

【EMNLP2019教程】端到端学习对话人工智能，附237页PPT下载

【EMNLP2019教程】端到端学习对话人工智能，附237页PPT下载

专知

26+阅读 · 2019年11月20日

对话系统近期进展

对话系统近期进展

专知

37+阅读 · 2019年3月23日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

干货篇|百度UNIT对话系统核心技术解析

干货篇|百度UNIT对话系统核心技术解析

InfoQ

23+阅读 · 2018年9月20日

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

人工智能学家

15+阅读 · 2018年8月4日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

AI研习社

24+阅读 · 2018年1月31日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

基于 rasa 搭建中文对话系统 | 公开课

基于 rasa 搭建中文对话系统 | 公开课

AI研习社

16+阅读 · 2018年1月12日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

静息态fMRI联合DTI对rTMS干预亚急性期完全性失语症功能连接和结构连接的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Agentic AI-based Framework for Mitigating Premature Diagnostic Handoff and Silent Hallucination in Healthcare Applications

Arxiv

0+阅读 · 6月16日

'AI Alignment' Encompasses Competing Technical Priorities

Arxiv

0+阅读 · 6月12日

A Framework for Measuring Appropriate Reliance on Set-Valued AI Advice

Arxiv

0+阅读 · 6月4日

InquiryBits: Sharing AI Conversation Traces to Support Collaboration Within Trust Boundaries

Arxiv

0+阅读 · 6月1日

The AI Cognitive Trojan Horse: How Large Language Models May Bypass Human Epistemic Vigilance

Arxiv

0+阅读 · 5月26日

STRIDE-AI: A Threat Modeling Framework for Generative AI Security Assessment

Arxiv

0+阅读 · 5月16日

Beliefs and Misconceptions around Integrated Conversational AI

Arxiv

0+阅读 · 5月14日

Positive Alignment: Artificial Intelligence for Human Flourishing

Arxiv

0+阅读 · 5月14日

Positive Alignment: Artificial Intelligence for Human Flourishing

Arxiv

0+阅读 · 5月11日

Decision-Oriented Dialogue for Human-AI Collaboration

Arxiv

12+阅读 · 2023年6月1日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 25分钟前

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 27分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

2+阅读 · 39分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 50分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 59分钟前

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

2+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

专知会员服务

19+阅读 · 2月12日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

112页《人工智能对齐：全面性综述》中文版

112页《人工智能对齐：全面性综述》中文版

专知会员服务

159+阅读 · 2024年2月1日

如何应对可迁移攻击？MSU最新《对AI系统可迁移攻击》全面综述数据、过程、模型和系统的攻击架构

如何应对可迁移攻击？MSU最新《对AI系统可迁移攻击》全面综述数据、过程、模型和系统的攻击架构

专知会员服务

30+阅读 · 2023年11月21日

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

专知会员服务

54+阅读 · 2023年11月1日

NeurIPS2020最新《深度对话人工智能》教程，130页ppt

NeurIPS2020最新《深度对话人工智能》教程，130页ppt

专知会员服务

42+阅读 · 2020年12月10日

【清华大学】面向任务的对话系统的最新进展和挑战，Task-oriented Dialog System

【清华大学】面向任务的对话系统的最新进展和挑战，Task-oriented Dialog System

专知会员服务

84+阅读 · 2020年3月24日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

40+阅读 · 2020年1月13日

【清华大学-微软研究院】构建智能开放域对话系统的挑战综述论文，31页pdf，Challenges in Building Intelligent Open-domain Dialog Systems

【清华大学-微软研究院】构建智能开放域对话系统的挑战综述论文，31页pdf，Challenges in Building Intelligent Open-domain Dialog Systems

专知会员服务

28+阅读 · 2019年10月23日

【ICML 2019 Tutorials】(Neural Approaches to Conversational AI)，微软高级研究员| Michel Galley，微软研究经理|高剑峰

【ICML 2019 Tutorials】(Neural Approaches to Conversational AI)，微软高级研究员| Michel Galley，微软研究经理|高剑峰

专知会员服务

17+阅读 · 2019年6月10日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【EMNLP2019教程】端到端学习对话人工智能，附237页PPT下载

【EMNLP2019教程】端到端学习对话人工智能，附237页PPT下载

专知

26+阅读 · 2019年11月20日

对话系统近期进展

对话系统近期进展

专知

37+阅读 · 2019年3月23日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

干货篇|百度UNIT对话系统核心技术解析

干货篇|百度UNIT对话系统核心技术解析

InfoQ

23+阅读 · 2018年9月20日

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

人工智能学家

15+阅读 · 2018年8月4日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

北邮张庆恒：如何基于 rasa 搭建一个中文对话系统（有源码视频）| 分享总结

AI研习社

24+阅读 · 2018年1月31日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

基于 rasa 搭建中文对话系统 | 公开课

基于 rasa 搭建中文对话系统 | 公开课

AI研习社

16+阅读 · 2018年1月12日

相关论文

Agentic AI-based Framework for Mitigating Premature Diagnostic Handoff and Silent Hallucination in Healthcare Applications

Arxiv

0+阅读 · 6月16日

'AI Alignment' Encompasses Competing Technical Priorities

Arxiv

0+阅读 · 6月12日

A Framework for Measuring Appropriate Reliance on Set-Valued AI Advice

Arxiv

0+阅读 · 6月4日

InquiryBits: Sharing AI Conversation Traces to Support Collaboration Within Trust Boundaries

Arxiv

0+阅读 · 6月1日

The AI Cognitive Trojan Horse: How Large Language Models May Bypass Human Epistemic Vigilance

Arxiv

0+阅读 · 5月26日

STRIDE-AI: A Threat Modeling Framework for Generative AI Security Assessment

Arxiv

0+阅读 · 5月16日

Beliefs and Misconceptions around Integrated Conversational AI

Arxiv

0+阅读 · 5月14日

Positive Alignment: Artificial Intelligence for Human Flourishing

Arxiv

0+阅读 · 5月14日

Positive Alignment: Artificial Intelligence for Human Flourishing

Arxiv

0+阅读 · 5月11日

Decision-Oriented Dialogue for Human-AI Collaboration

Arxiv

12+阅读 · 2023年6月1日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

静息态fMRI联合DTI对rTMS干预亚急性期完全性失语症功能连接和结构连接的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员