Machine learning models -- including large language models (LLMs) -- are often said to exhibit monoculture, where outputs agree strikingly often. But what does it actually mean for models to agree too much? We argue that this question is inherently subjective, relying on two key decisions. First, the analyst must specify a baseline null model for what "independence" should look like. This choice is inherently subjective, and as we show, different null models result in dramatically different inferences about excess agreement. Second, we show that inferences depend on the population of models and items under consideration. Models that seem highly correlated in one context may appear independent when evaluated on a different set of questions, or against a different set of peers. Experiments on two large-scale benchmarks validate our theoretical findings. For example, we find drastically different inferences when using a null model with item difficulty compared to previous works that do not. Together, our results reframe monoculture evaluation not as an absolute property of model behavior, but as a context-dependent inference problem.


翻译:机器学习模型——包括大语言模型(LLMs)——常被认为表现出单一文化现象,即其输出结果惊人地频繁一致。但模型“过度一致”的实际含义究竟是什么?我们认为该问题本质上是主观的,其结论依赖于两个关键决策。首先,分析者必须为“独立性”设定一个基准零模型。这一选择具有内在主观性,正如我们所示,不同的零模型会导致对过度一致性的推断产生显著差异。其次,我们证明推断结果取决于所考察的模型群体和项目集合。在特定情境下高度相关的模型,当评估不同问题集或与不同模型群体对比时,可能呈现出独立性。在两个大规模基准测试上的实验验证了我们的理论发现。例如,采用包含项目难度的零模型与先前未考虑该因素的研究相比,我们得到了截然不同的推断结果。综上,我们的研究将单一文化评估重新定义为一种依赖情境的推断问题,而非模型行为的绝对属性。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
【CMU博士论文】大型语言模型的隐性特性
专知会员服务
15+阅读 · 2025年10月18日
《直接偏好优化研究综述》
专知会员服务
31+阅读 · 2025年3月18日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
从信息瓶颈理论一瞥机器学习的“大一统理论”
概率论之概念解析:边缘化(Marginalisation)
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】伪标签学习导论 - 一种半监督学习方法
机器学习研究会
12+阅读 · 2017年10月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
4+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
2+阅读 · 4月19日
全球高超音速武器最新发展趋势
专知会员服务
2+阅读 · 4月19日
相关资讯
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
从信息瓶颈理论一瞥机器学习的“大一统理论”
概率论之概念解析:边缘化(Marginalisation)
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】伪标签学习导论 - 一种半监督学习方法
机器学习研究会
12+阅读 · 2017年10月5日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员