Moral reasoning is fundamental to safe Artificial Intelligence (AI), yet ensuring its consistency across modalities becomes critical as AI systems evolve from text-based assistants to embodied agents. Current safety techniques demonstrate success in textual contexts, but concerns remain about generalization to visual inputs. Existing moral evaluation benchmarks rely on textonly formats and lack systematic control over variables that influence moral decision-making. Here we show that visual inputs fundamentally alter moral decision-making in state-of-the-art (SOTA) Vision-Language Models (VLMs), bypassing text-based safety mechanisms. We introduce Moral Dilemma Simulation (MDS), a multimodal benchmark grounded in Moral Foundation Theory (MFT) that enables mechanistic analysis through orthogonal manipulation of visual and contextual variables. The evaluation reveals that the vision modality activates intuition-like pathways that override the more deliberate and safer reasoning patterns observed in text-only contexts. These findings expose critical fragilities where language-tuned safety filters fail to constrain visual processing, demonstrating the urgent need for multimodal safety alignment.


翻译:道德推理是构建安全人工智能(AI)的基础,然而随着AI系统从基于文本的助手演变为具身智能体,确保其跨模态的一致性变得至关重要。当前的安全技术在文本语境中已取得成效,但其向视觉输入的泛化能力仍存疑虑。现有的道德评估基准仅依赖纯文本形式,且缺乏对影响道德决策变量的系统性控制。本文表明,在尖端视觉语言模型(VLMs)中,视觉输入会从根本上改变道德决策过程,从而绕过基于文本的安全机制。我们提出了道德困境模拟(MDS)——一个基于道德基础理论(MFT)的多模态基准,通过对视觉与语境变量的正交操控实现机制性分析。评估结果表明,视觉模态会激活类直觉通路,压制在纯文本语境中观察到的更为审慎且安全的推理模式。这些发现揭示了关键脆弱性:经语言调优的安全过滤器无法约束视觉处理过程,从而凸显了多模态安全对齐的迫切需求。

0
下载
关闭预览

相关内容

在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
人工智能伦理风险与治理研究
专知会员服务
20+阅读 · 2025年4月22日
人工智能伦理计算
专知会员服务
39+阅读 · 2023年10月13日
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
65+阅读 · 2021年12月1日
专知会员服务
43+阅读 · 2021年9月28日
专知会员服务
32+阅读 · 2021年3月17日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关VIP内容
在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
人工智能伦理风险与治理研究
专知会员服务
20+阅读 · 2025年4月22日
人工智能伦理计算
专知会员服务
39+阅读 · 2023年10月13日
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
65+阅读 · 2021年12月1日
专知会员服务
43+阅读 · 2021年9月28日
专知会员服务
32+阅读 · 2021年3月17日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员