Visual Distraction Undermines Moral Reasoning in Vision-Language Models - 专知论文

会员服务 ·

0

模态 · 语言模型 · AI · 系统 · 基准 ·

Visual Distraction Undermines Moral Reasoning in Vision-Language Models

翻译：视觉干扰削弱视觉语言模型中的道德推理能力

Xinyi Yang,Chenheng Xu,Weijun Hong,Ce Mo,Qian Wang,Fang Fang,Yixin Zhu

Moral reasoning is fundamental to safe Artificial Intelligence (AI), yet ensuring its consistency across modalities becomes critical as AI systems evolve from text-based assistants to embodied agents. Current safety techniques demonstrate success in textual contexts, but concerns remain about generalization to visual inputs. Existing moral evaluation benchmarks rely on textonly formats and lack systematic control over variables that influence moral decision-making. Here we show that visual inputs fundamentally alter moral decision-making in state-of-the-art (SOTA) Vision-Language Models (VLMs), bypassing text-based safety mechanisms. We introduce Moral Dilemma Simulation (MDS), a multimodal benchmark grounded in Moral Foundation Theory (MFT) that enables mechanistic analysis through orthogonal manipulation of visual and contextual variables. The evaluation reveals that the vision modality activates intuition-like pathways that override the more deliberate and safer reasoning patterns observed in text-only contexts. These findings expose critical fragilities where language-tuned safety filters fail to constrain visual processing, demonstrating the urgent need for multimodal safety alignment.

翻译：道德推理是构建安全人工智能（AI）的基础，然而随着AI系统从基于文本的助手演变为具身智能体，确保其跨模态的一致性变得至关重要。当前的安全技术在文本语境中已取得成效，但其向视觉输入的泛化能力仍存疑虑。现有的道德评估基准仅依赖纯文本形式，且缺乏对影响道德决策变量的系统性控制。本文表明，在尖端视觉语言模型（VLMs）中，视觉输入会从根本上改变道德决策过程，从而绕过基于文本的安全机制。我们提出了道德困境模拟（MDS）——一个基于道德基础理论（MFT）的多模态基准，通过对视觉与语境变量的正交操控实现机制性分析。评估结果表明，视觉模态会激活类直觉通路，压制在纯文本语境中观察到的更为审慎且安全的推理模式。这些发现揭示了关键脆弱性：经语言调优的安全过滤器无法约束视觉处理过程，从而凸显了多模态安全对齐的迫切需求。

0

相关内容

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

人工智能伦理风险与治理研究

人工智能伦理风险与治理研究

专知会员服务

20+阅读 · 2025年4月22日

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

专知会员服务

20+阅读 · 2024年11月18日

《人工智能指挥官问题：人工智能战争中人机互动的伦理、政治和心理困境》

《人工智能指挥官问题：人工智能战争中人机互动的伦理、政治和心理困境》

专知会员服务

24+阅读 · 2024年10月12日

人工智能伦理计算

人工智能伦理计算

专知会员服务

39+阅读 · 2023年10月13日

《类比推理在视觉知识提取中的应用》美国空军研究实验室最新220页论文

《类比推理在视觉知识提取中的应用》美国空军研究实验室最新220页论文

专知会员服务

34+阅读 · 2022年8月26日

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

专知会员服务

21+阅读 · 2022年3月14日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知会员服务

65+阅读 · 2021年12月1日

《新一代人工智能伦理规范》发布

专知会员服务

43+阅读 · 2021年9月28日

基于视觉和语言的跨媒体问答与推理研究综述

专知会员服务

32+阅读 · 2021年3月17日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

见微知著：语义分割中的弱监督学习

见微知著：语义分割中的弱监督学习

深度学习大讲堂

11+阅读 · 2017年12月6日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

图像认知中的遮挡影响分析及建模

国家自然科学基金

0+阅读 · 2017年12月31日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

Lexical Anthropomorphization Influences on Moral Judgments of AI Bad Behavior

Arxiv

0+阅读 · 4月28日

The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers

Arxiv

0+阅读 · 4月27日

Evaluating Language Models for Harmful Manipulation

Arxiv

0+阅读 · 3月26日

From Morality Installation in LLMs to LLMs in Morality-as-a-System

Arxiv

0+阅读 · 3月24日

Structured Visual Narratives Undermine Safety Alignment in Multimodal Large Language Models

Arxiv

0+阅读 · 3月23日

Through the Looking-Glass: AI-Mediated Video Communication Reduces Interpersonal Trust and Confidence in Judgments

Arxiv

0+阅读 · 3月19日

Literary Narrative as Moral Probe : A Cross-System Framework for Evaluating AI Ethical Reasoning and Refusal Behavior

Arxiv

0+阅读 · 3月13日

CogniAlign: Survivability-Grounded Multi-Agent Moral Reasoning for Safe and Transparent AI

Arxiv

0+阅读 · 2月21日

Perceived Political Bias in LLMs Reduces Persuasive Abilities

Arxiv

0+阅读 · 2月20日

Minimum Levels of Interpretability for Artificial Moral Agents

Arxiv

13+阅读 · 2023年7月2日

VIP会员

文章信息

相关主题

最新内容

北约《俄乌战争经验教训课程指南：25份课程计划》150页

北约《俄乌战争经验教训课程指南：25份课程计划》150页

专知会员服务

1+阅读 · 51分钟前

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

专知会员服务

1+阅读 · 55分钟前

首场人工智能战争——俄乌战争（中文版、原文下载）

首场人工智能战争——俄乌战争（中文版、原文下载）

专知会员服务

1+阅读 · 今天1:52

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

专知会员服务

2+阅读 · 今天1:36

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

专知会员服务

1+阅读 · 今天1:28

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

专知会员服务

1+阅读 · 今天1:16

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

专知会员服务

3+阅读 · 5月8日

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

1+阅读 · 5月8日

认知战与交战性质的改变：神经战略视角

认知战与交战性质的改变：神经战略视角

专知会员服务

5+阅读 · 5月8日

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

专知会员服务

4+阅读 · 5月8日

人工智能对特定国防资源管理流程的影响（万字长文）

人工智能对特定国防资源管理流程的影响（万字长文）

专知会员服务

5+阅读 · 5月8日

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

专知会员服务

9+阅读 · 5月8日

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

专知会员服务

10+阅读 · 5月8日

《美空军条令出版物：网络空间作战（2026版）》

《美空军条令出版物：网络空间作战（2026版）》

专知会员服务

11+阅读 · 5月8日

《美空军条令出版物：空军作战中的信息（2026版）》

《美空军条令出版物：空军作战中的信息（2026版）》

专知会员服务

13+阅读 · 5月8日

相关VIP内容

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

人工智能伦理风险与治理研究

人工智能伦理风险与治理研究

专知会员服务

20+阅读 · 2025年4月22日

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

《面向道义推理DevOps的人类-人工智能交流（CODORD）》DARPA项目slides

专知会员服务

20+阅读 · 2024年11月18日

《人工智能指挥官问题：人工智能战争中人机互动的伦理、政治和心理困境》

《人工智能指挥官问题：人工智能战争中人机互动的伦理、政治和心理困境》

专知会员服务

24+阅读 · 2024年10月12日

人工智能伦理计算

人工智能伦理计算

专知会员服务

39+阅读 · 2023年10月13日

《类比推理在视觉知识提取中的应用》美国空军研究实验室最新220页论文

《类比推理在视觉知识提取中的应用》美国空军研究实验室最新220页论文

专知会员服务

34+阅读 · 2022年8月26日

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

AI 模型偏差对信任的损害可能超出你的想象，该如何解决？（附报告）

专知会员服务

21+阅读 · 2022年3月14日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知会员服务

65+阅读 · 2021年12月1日

《新一代人工智能伦理规范》发布

专知会员服务

43+阅读 · 2021年9月28日

基于视觉和语言的跨媒体问答与推理研究综述

专知会员服务

32+阅读 · 2021年3月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

北约《俄乌战争经验教训课程指南：25份课程计划》150页

首场人工智能战争——俄乌战争（中文版、原文下载）

相关资讯

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

见微知著：语义分割中的弱监督学习

见微知著：语义分割中的弱监督学习

深度学习大讲堂

11+阅读 · 2017年12月6日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

Lexical Anthropomorphization Influences on Moral Judgments of AI Bad Behavior

Arxiv

0+阅读 · 4月28日

The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers

Arxiv

0+阅读 · 4月27日

Evaluating Language Models for Harmful Manipulation

Arxiv

0+阅读 · 3月26日

From Morality Installation in LLMs to LLMs in Morality-as-a-System

Arxiv

0+阅读 · 3月24日

Structured Visual Narratives Undermine Safety Alignment in Multimodal Large Language Models

Arxiv

0+阅读 · 3月23日

Through the Looking-Glass: AI-Mediated Video Communication Reduces Interpersonal Trust and Confidence in Judgments

Arxiv

0+阅读 · 3月19日

Literary Narrative as Moral Probe : A Cross-System Framework for Evaluating AI Ethical Reasoning and Refusal Behavior

Arxiv

0+阅读 · 3月13日

CogniAlign: Survivability-Grounded Multi-Agent Moral Reasoning for Safe and Transparent AI

Arxiv

0+阅读 · 2月21日

Perceived Political Bias in LLMs Reduces Persuasive Abilities

Arxiv

0+阅读 · 2月20日

Minimum Levels of Interpretability for Artificial Moral Agents

Arxiv

13+阅读 · 2023年7月2日

相关基金

图像认知中的遮挡影响分析及建模

国家自然科学基金

0+阅读 · 2017年12月31日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员