从奉承到意义构建：人机决策的前提治理 (From Sycophancy to Sensemaking: Premise Governance for Human-AI Decision Making) - 专知论文

会员服务 ·

0

意义构建 · 构建 · 知识 · 协作 · 门控 ·

From Sycophancy to Sensemaking: Premise Governance for Human-AI Decision Making

翻译：从奉承到意义构建：人机决策的前提治理

Raunak Jain,Mudita Khurana,John Stephens,Srinivas Dharmasanam,Shankar Venkataraman

As LLMs expand from assistance to decision support, a dangerous pattern emerges: fluent agreement without calibrated judgment. Low-friction assistants can become sycophantic, baking in implicit assumptions and pushing verification costs onto experts, while outcomes arrive too late to serve as reward signals. In deep-uncertainty decisions (where objectives are contested and reversals are costly), scaling fluent agreement amplifies poor commitments faster than it builds expertise. We argue reliable human-AI partnership requires a shift from answer generation to collaborative premise governance over a knowledge substrate, negotiating only what is decision-critical. A discrepancy-driven control loop operates over this substrate: detecting conflicts, localizing misalignment via typed discrepancies (teleological, epistemic, procedural), and triggering bounded negotiation through decision slices. Commitment gating blocks action on uncommitted load-bearing premises unless overridden under logged risk; value-gated challenge allocates probing under interaction cost. Trust then attaches to auditable premises and evidence standards, not conversational fluency. We illustrate with tutoring and propose falsifiable evaluation criteria.

翻译：随着大型语言模型从辅助工具扩展到决策支持，一种危险模式逐渐显现：流利的赞同缺乏校准判断。低摩擦的助手可能变得阿谀奉承，固化隐含假设并将验证成本转嫁给专家，而结果反馈过迟无法作为奖励信号。在深度不确定性决策中（目标存在争议且逆转成本高昂），扩大流利赞同放大错误承诺的速度远快于专业知识积累。我们认为可靠的人机协作需要从答案生成转向基于知识基底的协作式前提治理，仅就决策关键要素进行协商。差异驱动的控制环路在此基底上运行：检测冲突，通过类型化差异（目的论差异、认知差异、程序差异）定位错位，并通过决策切片触发有界协商。承诺门控机制阻止对未达成共识的承重前提采取行动，除非在记录风险下被覆盖；价值门控质询根据交互成本分配探查资源。信任由此附着于可审计的前提与证据标准，而非对话流畅度。我们通过教学案例进行阐释，并提出可证伪的评估标准。

0

相关内容

意义构建

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

专知会员服务

29+阅读 · 2025年12月13日

迈向透明人工智能（AI）：可解释性语言模型综述

迈向透明人工智能（AI）：可解释性语言模型综述

专知会员服务

15+阅读 · 2025年9月29日

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

专知会员服务

32+阅读 · 2025年9月16日

《理解人工智能人机交互中信息处理相关动态：如何向军事决策者呈现数据？》2025年最新75页

《理解人工智能人机交互中信息处理相关动态：如何向军事决策者呈现数据？》2025年最新75页

专知会员服务

23+阅读 · 2025年9月15日

人机编队《NLP中人工智能决策的解释效用评价》49页长综述

人机编队《NLP中人工智能决策的解释效用评价》49页长综述

专知会员服务

29+阅读 · 2025年1月8日

《军事危机模拟中语言模型自由决策不一致性度量》

《军事危机模拟中语言模型自由决策不一致性度量》

专知会员服务

21+阅读 · 2024年10月29日

《可解释人工智能在人工智能辅助决策中的作用综述》

《可解释人工智能在人工智能辅助决策中的作用综述》

专知会员服务

61+阅读 · 2024年1月4日

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

专知会员服务

75+阅读 · 2023年5月4日

【2023新书】机器学习可解释性导论：关于公平、问责、透明度和可解释人工智能的应用视角

【2023新书】机器学习可解释性导论：关于公平、问责、透明度和可解释人工智能的应用视角

专知会员服务

77+阅读 · 2023年4月7日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

80+阅读 · 2022年8月29日

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

专知

10+阅读 · 2022年8月18日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

83+阅读 · 2022年7月7日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

产业智能官

12+阅读 · 2019年1月29日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

非结构化管理决策大数据平台构建与关键技术

国家自然科学基金

11+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于公共衍生大数据分析的政府决策过程重构与评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

考虑具有风险结构的决策建模及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

A Rational Analysis of the Effects of Sycophantic AI

Arxiv

0+阅读 · 2月15日

Who Does What? Archetypes of Roles Assigned to LLMs During Human-AI Decision-Making

Arxiv

0+阅读 · 2月12日

Understanding the Effects of AI-Assisted Critical Thinking on Human-AI Decision Making

Arxiv

0+阅读 · 2月10日

PrefIx: Understand and Adapt to User Preference in Human-Agent Interaction

Arxiv

0+阅读 · 2月6日

ALIVE: Awakening LLM Reasoning via Adversarial Learning and Instructive Verbal Evaluation

Arxiv

0+阅读 · 2月5日

PretrainRL: Alleviating Factuality Hallucination of Large Language Models at the Beginning

Arxiv

0+阅读 · 2月2日

From Retrieving Information to Reasoning with AI: Exploring Different Interaction Modalities to Support Human-AI Coordination in Clinical Decision-Making

Arxiv

0+阅读 · 1月29日

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution

Arxiv

0+阅读 · 1月28日

DialDefer: A Framework for Detecting and Mitigating LLM Dialogic Deference

Arxiv

0+阅读 · 1月15日

Enabling Global, Human-Centered Explanations for LLMs:From Tokens to Interpretable Code and Test Generation

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

相关VIP内容

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

专知会员服务

29+阅读 · 2025年12月13日

迈向透明人工智能（AI）：可解释性语言模型综述

迈向透明人工智能（AI）：可解释性语言模型综述

专知会员服务

15+阅读 · 2025年9月29日

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

专知会员服务

32+阅读 · 2025年9月16日

《理解人工智能人机交互中信息处理相关动态：如何向军事决策者呈现数据？》2025年最新75页

《理解人工智能人机交互中信息处理相关动态：如何向军事决策者呈现数据？》2025年最新75页

专知会员服务

23+阅读 · 2025年9月15日

人机编队《NLP中人工智能决策的解释效用评价》49页长综述

人机编队《NLP中人工智能决策的解释效用评价》49页长综述

专知会员服务

29+阅读 · 2025年1月8日

《军事危机模拟中语言模型自由决策不一致性度量》

《军事危机模拟中语言模型自由决策不一致性度量》

专知会员服务

21+阅读 · 2024年10月29日

《可解释人工智能在人工智能辅助决策中的作用综述》

《可解释人工智能在人工智能辅助决策中的作用综述》

专知会员服务

61+阅读 · 2024年1月4日

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

ChatGPT中的RLHF技术如何用？CMU最新《自然语言生成中的人工反馈集成》综述，详述人类反馈的格式、目标、用途和建模

专知会员服务

75+阅读 · 2023年5月4日

【2023新书】机器学习可解释性导论：关于公平、问责、透明度和可解释人工智能的应用视角

【2023新书】机器学习可解释性导论：关于公平、问责、透明度和可解释人工智能的应用视角

专知会员服务

77+阅读 · 2023年4月7日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

47+阅读 · 2022年11月16日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

80+阅读 · 2022年8月29日

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

2022人工智能十大关键词: 从大模型到可信落地，附人工智能白皮书下载

专知

10+阅读 · 2022年8月18日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

83+阅读 · 2022年7月7日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

【中台】什么是中台？企业为什么要建中台？从数据中台到AI中台。

产业智能官

12+阅读 · 2019年1月29日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

相关论文

A Rational Analysis of the Effects of Sycophantic AI

Arxiv

0+阅读 · 2月15日

Who Does What? Archetypes of Roles Assigned to LLMs During Human-AI Decision-Making

Arxiv

0+阅读 · 2月12日

Understanding the Effects of AI-Assisted Critical Thinking on Human-AI Decision Making

Arxiv

0+阅读 · 2月10日

PrefIx: Understand and Adapt to User Preference in Human-Agent Interaction

Arxiv

0+阅读 · 2月6日

ALIVE: Awakening LLM Reasoning via Adversarial Learning and Instructive Verbal Evaluation

Arxiv

0+阅读 · 2月5日

PretrainRL: Alleviating Factuality Hallucination of Large Language Models at the Beginning

Arxiv

0+阅读 · 2月2日

From Retrieving Information to Reasoning with AI: Exploring Different Interaction Modalities to Support Human-AI Coordination in Clinical Decision-Making

Arxiv

0+阅读 · 1月29日

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution

Arxiv

0+阅读 · 1月28日

DialDefer: A Framework for Detecting and Mitigating LLM Dialogic Deference

Arxiv

0+阅读 · 1月15日

Enabling Global, Human-Centered Explanations for LLMs:From Tokens to Interpretable Code and Test Generation

Arxiv

0+阅读 · 1月14日

相关基金

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

非结构化管理决策大数据平台构建与关键技术

国家自然科学基金

11+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于公共衍生大数据分析的政府决策过程重构与评估方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

考虑具有风险结构的决策建模及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员