Silicon samples are increasingly used as a low-cost substitute for human panels and have been shown to reproduce aggregate human opinion with high fidelity. We show that, in the alignment-relevant domain of philosophy, silicon samples systematically collapse heterogeneity. Using data from $N = {277}$ professional philosophers drawn from PhilPeople profiles, we evaluate seven proprietary and open-source large language models on their ability to replicate individual philosophical positions and to preserve cross-question correlation structures across philosophical domains. We find that language models substantially over-correlate philosophical judgments, producing artificial consensus across domains. This collapse is associated in part with specialist effects, whereby models implicitly assume that domain specialists hold highly similar philosophical views. We assess the robustness of these findings by studying the impact of DPO fine-tuning and by validating results against the full PhilPapers 2020 Survey ($N = {1785}$). We conclude by discussing implications for alignment, evaluation, and the use of silicon samples as substitutes for human judgment. The code of this project can be found at https://github.com/stanford-del/silicon-philosophers.


翻译:硅样本正日益被用作人类面板的低成本替代品,并被证明能够高保真地再现人类群体的意见。我们证明,在涉及对齐的哲学领域,硅样本系统性地抹杀了异质性。基于从 PhilPeople 档案中获取的 277 位专业哲学家的数据,我们评估了七款专有及开源大语言模型在复现个体哲学立场、保持跨哲学领域问题间相关结构方面的能力。研究发现,语言模型显著过度关联了哲学判断,在不同领域间产生了人为的共识。这种坍塌部分源于专家效应,即模型隐含地假设领域专家持有高度相似的哲学观点。我们通过研究 DPO 微调的影响,并依据完整的 PhilPapers 2020 调查(样本量 1785 人)对结果进行验证,从而评估了这些发现的稳健性。最后,我们讨论了这一发现对对齐、评估以及将硅样本作为人类判断替代品的用意。本项目代码可于 https://github.com/stanford-del/silicon-philosophers 获取。

0
下载
关闭预览

相关内容

哲学一词译自「philosophy」,字面意思是「爱智慧」。哲学主要是对自我和世界做最根本的探究和反思。古代希腊、印度、中国等文明都产生了自己的哲学,如今以古希腊为源头的西方哲学发展最盛。哲学的主要分支有形而上学、认识论、逻辑学、伦理学、美学、政治哲学、科学哲学、心灵哲学等。
《多智能体系统中的异质性》221页
专知会员服务
35+阅读 · 2025年2月14日
专知会员服务
38+阅读 · 2021年8月2日
异质信息网络分析与应用综述,软件学报-北京邮电大学
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
总结-空洞卷积(Dilated/Atrous Convolution)
极市平台
41+阅读 · 2019年2月25日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月16日
Arxiv
0+阅读 · 3月6日
Arxiv
0+阅读 · 2月23日
VIP会员
最新内容
《多域战场上反制小型无人机系统》150页
专知会员服务
11+阅读 · 今天7:47
战场人工智能:增强陆地作战能力的发现与要求
专知会员服务
2+阅读 · 今天7:37
以人工智能为中心的指挥控制
专知会员服务
2+阅读 · 今天7:14
《基于深度强化学习的反无人机技术研究》178页
专知会员服务
11+阅读 · 6月10日
“史诗怒火”行动与“AI中心战”模式的浮现
专知会员服务
11+阅读 · 6月10日
【CVPR2026教程】扩散模型的解析理解
专知会员服务
5+阅读 · 6月10日
马赛克战:俄乌战场透析
专知会员服务
17+阅读 · 6月10日
相关VIP内容
《多智能体系统中的异质性》221页
专知会员服务
35+阅读 · 2025年2月14日
专知会员服务
38+阅读 · 2021年8月2日
异质信息网络分析与应用综述,软件学报-北京邮电大学
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员