We build a custom transformer model to study how neural networks make moral decisions on trolley-style dilemmas. The model processes structured scenarios using embeddings that encode who is affected, how many people, and which outcome they belong to. Our 2-layer architecture achieves 77% accuracy on Moral Machine data while remaining small enough for detailed analysis. We use different interpretability techniques to uncover how moral reasoning distributes across the network, demonstrating that biases localize to distinct computational stages among other findings.


翻译:我们构建了一个定制的Transformer模型,用于研究神经网络如何在电车式困境中做出道德决策。该模型通过嵌入表示处理结构化场景,这些嵌入编码了受影响对象、人数及其所属结果类别。我们的两层架构在道德机器数据集上达到77%的准确率,同时保持足够小的规模以支持精细分析。通过多种可解释性技术,我们揭示了道德推理在网络中的分布机制,并证明认知偏差会定位在特定的计算阶段,这仅是研究发现之一。

0
下载
关闭预览

相关内容

【普林斯顿博士论文】理解数据在模型决策中的作用
专知会员服务
42+阅读 · 2024年4月26日
《可解释人工智能在人工智能辅助决策中的作用综述》
专知会员服务
61+阅读 · 2024年1月4日
大模型道德价值观对齐问题剖析
专知会员服务
79+阅读 · 2023年10月3日
专知会员服务
104+阅读 · 2021年6月23日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
知识图谱嵌入的Translate模型汇总(TransE,TransH,TransR,TransD)
深度学习自然语言处理
31+阅读 · 2020年6月12日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
Attention模型方法综述 | 多篇经典论文解读
PaperWeekly
107+阅读 · 2018年6月11日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员