Large Language Models (LLMs) have shown impressive moral reasoning abilities. Yet they often diverge when confronted with complex, multi-factor moral dilemmas. To address these discrepancies, we propose a framework that synthesizes multiple LLMs' moral judgments into a collectively formulated moral judgment, realigning models that deviate significantly from this consensus. Our aggregation mechanism fuses continuous moral acceptability scores (beyond binary labels) into a collective probability, weighting contributions by model reliability. For misaligned models, a targeted embedding-optimization procedure fine-tunes token embeddings for moral philosophical theories, minimizing JS divergence to the consensus while preserving semantic integrity. Experiments on a large-scale social moral dilemma dataset show our approach builds robust consensus and improves individual model fidelity. These findings highlight the value of data-driven moral alignment across multiple models and its potential for safer, more consistent AI systems.


翻译:大语言模型已展现出令人瞩目的道德推理能力,但在面对复杂多因素的道德困境时,其判断常出现显著分歧。为解决此类不一致性问题,本文提出一种框架,通过融合多个大语言模型的道德判断形成集体道德判断,并对显著偏离共识的模型进行校准。我们的聚合机制将连续的道德可接受性评分(超越二元标签)融合为集体概率,并依据模型可靠性对贡献进行加权。针对未对齐模型,我们设计了定向嵌入优化方法,通过对道德哲学理论相关的词元嵌入进行微调,在保持语义完整性的同时最小化其与共识之间的JS散度。基于大规模社会道德困境数据集的实验表明,该方法能够建立稳健的共识并提升个体模型的判断一致性。这些发现凸显了跨模型数据驱动道德对齐的价值,及其在构建更安全、更稳定人工智能系统方面的潜力。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
面向大型语言模型推理的可信研究综述
专知会员服务
22+阅读 · 2025年9月6日
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
融合知识图谱的大语言模型研究综述
专知会员服务
37+阅读 · 2025年4月18日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
32+阅读 · 2025年4月1日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
49+阅读 · 2025年1月17日
大语言模型对齐研究综述
专知会员服务
56+阅读 · 2024年8月1日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
大语言模型价值观对齐研究与展望
专知会员服务
37+阅读 · 2024年3月19日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
面向大型语言模型推理的可信研究综述
专知会员服务
22+阅读 · 2025年9月6日
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
融合知识图谱的大语言模型研究综述
专知会员服务
37+阅读 · 2025年4月18日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
32+阅读 · 2025年4月1日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
49+阅读 · 2025年1月17日
大语言模型对齐研究综述
专知会员服务
56+阅读 · 2024年8月1日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
大语言模型价值观对齐研究与展望
专知会员服务
37+阅读 · 2024年3月19日
相关资讯
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员