Large Language Models (LLMs) are increasingly deployed to curate and rank human-created content, yet the nature and structure of their biases in these tasks remains poorly understood: which biases are robust across providers and platforms, and which can be mitigated through prompt design. We present a controlled simulation study mapping content selection biases across three major LLM providers (OpenAI, Anthropic, Google) on real social media datasets from Twitter/X, Bluesky, and Reddit, using six prompting strategies (\textit{general}, \textit{popular}, \textit{engaging}, \textit{informative}, \textit{controversial}, \textit{neutral}). Through 540,000 simulated top-10 selections from pools of 100 posts across 54 experimental conditions, we find that biases differ substantially in how structural and how prompt-sensitive they are. Polarization is amplified across all configurations, toxicity handling shows a strong inversion between engagement- and information-focused prompts, and sentiment biases are predominantly negative. Provider comparisons reveal distinct trade-offs: GPT-4o Mini shows the most consistent behavior across prompts; Claude and Gemini exhibit high adaptivity in toxicity handling; Gemini shows the strongest negative sentiment preference. On Twitter/X, where author demographics can be inferred from profile bios, political leaning bias is the clearest demographic signal: left-leaning authors are systematically over-represented despite right-leaning authors forming the pool plurality in the dataset, and this pattern largely persists across prompts.


翻译:大型语言模型(LLMs)正日益被用于策划和排序人类生成的内容,但在此类任务中,其偏差的性质与结构仍未被充分理解:哪些偏差在不同提供商和平台间具有稳健性,哪些可通过提示设计加以缓解。我们通过控制模拟研究,基于Twitter/X、Bluesky和Reddit的真实社交媒体数据集,对三家主要LLM提供商(OpenAI、Anthropic、Google)的内容选择偏差进行了映射,采用了六种提示策略(通用、流行、吸引、信息性、争议性、中立)。通过54种实验条件下从100条帖子池中进行的540,000次模拟前10选择,我们发现偏差在结构性和对提示的敏感性方面存在显著差异。极化在所有配置下均被放大,毒性处理在吸引导向与信息导向提示之间呈现强烈反转,情感偏差则主要为负面。提供商对比揭示了不同的权衡:GPT-4o Mini在跨提示行为上最为一致;Claude和Gemini在毒性处理上表现出高适应性;Gemini在负面情感偏好上最为显著。在Twitter/X上,当作者人口统计学信息可从个人资料中推断时,政治立场偏差是最清晰的人口统计信号:尽管数据集中右倾作者构成大多数,左倾作者却被系统性过度代表,且这一模式在提示中基本持续存在。

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
迈向LLM时代的可泛化评估:超越基准的综述
专知会员服务
23+阅读 · 2025年4月29日
《直接偏好优化研究综述》
专知会员服务
31+阅读 · 2025年3月18日
【ICLR2024】能检测到LLM产生的错误信息吗?
专知会员服务
25+阅读 · 2024年1月23日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
最全推荐系统Embedding召回算法总结
凡人机器学习
30+阅读 · 2020年7月5日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
推荐中的序列化建模:Session-based neural recommendation
机器学习研究会
18+阅读 · 2017年11月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员