We build a custom transformer model to study how neural networks make moral decisions on trolley-style dilemmas. The model processes structured scenarios using embeddings that encode who is affected, how many people, and which outcome they belong to. Our 2-layer architecture achieves 77% accuracy on Moral Machine data while remaining small enough for detailed analysis. We use different interpretability techniques to uncover how moral reasoning distributes across the network, demonstrating that biases localize to distinct computational stages among other findings.


翻译:我们构建了一个定制的Transformer模型来研究神经网络如何在电车式困境中做出道德决策。该模型通过嵌入编码受影响对象、人数及其所属结果的结构化场景进行处理。我们的双层架构在道德机器数据集上达到77%的准确率,同时保持足够小的规模以支持精细分析。通过多种可解释性技术,我们揭示了道德推理在网络中的分布机制,并证明偏见会局部化于不同的计算阶段。

0
下载
关闭预览

相关内容

《决策中的生成模型:综述》
专知会员服务
48+阅读 · 2025年2月26日
【普林斯顿博士论文】理解数据在模型决策中的作用
专知会员服务
42+阅读 · 2024年4月26日
《可解释人工智能在人工智能辅助决策中的作用综述》
专知会员服务
61+阅读 · 2024年1月4日
大模型道德价值观对齐问题剖析
专知会员服务
79+阅读 · 2023年10月3日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员