Work on morality in large language models (LLMs) has progressed via constitutional AI, reinforcement learning from human feedback (RLHF) and systematic benchmarking, yet it still lacks tools to connect internal moral representations to regulatory obligations, to design cultural plurality across the full development stack, and to monitor how moral properties drift over the lifecycle of a deployed system. These difficulties reflect a shared root. Morality is installed in a model at training time. I propose instead a morality-as-a-system framework, grounded in Niklas Luhmann's social systems theory, that treats LLM morality as a dynamic, emergent property of a sociotechnical system. Moral behaviour in a deployed LLM is not fixed at training. It is continuously reproduced through interactions among seven structurally coupled components spanning the neural substrate, training data, alignment procedures, system prompts, moderation, runtime dynamics, and user interface. This is a conceptual framework paper, not an empirical study. It philosophically reframes three known challenges, the interpretability-governance gap, the cross-component plurality problem, and the absence of lifecycle monitoring, as structural coupling failures that the installation paradigm cannot diagnose. For technical researchers, it explores three illustrative hypotheses about cross-component representational inconsistency, representation-level drift as an early safety signal, and the governance advantage of lifecycle monitoring. For philosophers and governance specialists, it offers a vocabulary for specifying substrate-level monitoring obligations within existing governance frameworks. The morality-as-a-system framework does not displace elements such as constitutional AI or RLHF it embeds them within a larger temporal and structural account and specifies the additional infrastructure those methods require.


翻译:摘要:大语言模型中的道德研究已通过宪法式人工智能、基于人类反馈的强化学习及系统性基准测试取得进展,但仍缺乏将内部道德表征与监管义务相连接的工具、缺乏在完整开发栈中设计文化多样性的手段,以及缺乏监控已部署系统生命周期中道德属性漂移的方法。这些困境反映出一个共同根源:道德是在训练阶段被植入模型的。本文提出一种替代性框架——"作为系统的道德",其理论基础源自尼克拉斯·卢曼的社会系统理论,将大语言模型的道德视为社会技术系统中动态涌现的属性。已部署大语言模型的道德行为并非在训练中固定,而是通过神经基质、训练数据、对齐流程、系统提示、审核机制、运行时动态和用户界面等七个结构耦合组件间的持续互动不断再生产。本文属于概念性框架论文而非实证研究。它从哲学层面重新阐释了三个已知挑战:可解释性-治理鸿沟、跨组件多元性问题以及生命周期监控缺失——这些问题在植入范式下无法被诊断。针对技术研究者,本文提出三个说明性假设:跨组件表征不一致性、表征级漂移作为早期安全信号,以及生命周期监控的治理优势。面向哲学家与治理专家,本文提供了在现有治理框架内定义基质级监控义务的术语体系。"作为系统的道德"框架并非取代宪法式人工智能或基于人类反馈的强化学习等要素,而是将其嵌入更大的时间与结构叙事中,并明确这些方法所需的基础设施补充。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
从系统1到系统2:推理大语言模型综述
专知会员服务
43+阅读 · 2025年2月25日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
迈向可信的人工智能:伦理和稳健的大型语言模型综述
专知会员服务
39+阅读 · 2024年7月28日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
大语言模型价值观对齐研究与展望
专知会员服务
37+阅读 · 2024年3月19日
大模型道德价值观对齐问题剖析
专知会员服务
79+阅读 · 2023年10月3日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
知识图谱嵌入的Translate模型汇总(TransE,TransH,TransR,TransD)
深度学习自然语言处理
31+阅读 · 2020年6月12日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
2+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
从系统1到系统2:推理大语言模型综述
专知会员服务
43+阅读 · 2025年2月25日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
迈向可信的人工智能:伦理和稳健的大型语言模型综述
专知会员服务
39+阅读 · 2024年7月28日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
大语言模型价值观对齐研究与展望
专知会员服务
37+阅读 · 2024年3月19日
大模型道德价值观对齐问题剖析
专知会员服务
79+阅读 · 2023年10月3日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员