Generative AI models reproduce the human biases in their training data and further amplify them through mechanisms such as mode collapse. The loss of diversity produces homogenization, which not only harms the minoritized but impoverishes everyone. We argue homogenization should be a central concern in AI safety. To meaningfully characterize homogenization in Large Language Models (LLMs), we introduce a framework that allows stakeholders to encode their context and value system. We illustrate our approach with an experiment that surfaces gender bias in an LLM (Claude 3.5 Haiku) on an open-ended story prompt. Building from queer theory, we formalize homogenization in terms of normativity. Borrowing language from feminist theory, we introduce the concept of xeno-reproduction as a class of tasks for mitigating homogenization by promoting diversity. Our work opens a collaborative line of research that seeks to understand and advance diversity in AI.


翻译:生成式AI模型会复制其训练数据中的人类偏见,并通过模态坍塌等机制进一步放大这些偏见。多样性的缺失导致同质化,这不仅伤害了少数群体,也削弱了所有人的福祉。我们认为同质化应成为人工智能安全的核心关切。为了有意义地表征大型语言模型中的同质化现象,我们引入了一个框架,允许利益相关者编码其背景与价值体系。我们通过一项实验来阐释该方法:该实验揭示了大型语言模型(Claude 3.5 Haiku)在开放式故事提示中存在的性别偏见。基于酷儿理论,我们将同质化从规范性角度予以形式化。借由女性主义理论的术语,我们引入“异源再生产”(xeno-reproduction)这一概念,作为通过促进多样性来缓解同质化的一类任务。我们的工作开启了一条协作研究路径,旨在理解和推动人工智能中的多样性。

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
大语言模型对齐研究综述
专知会员服务
56+阅读 · 2024年8月1日
生成式人工智能大型语言模型的安全性:概述
专知会员服务
35+阅读 · 2024年7月30日
人工智能模型中公平性追求的综述
专知会员服务
23+阅读 · 2024年3月30日
大语言模型安全现状与挑战
专知会员服务
88+阅读 · 2024年1月14日
大模型安全与对齐:复杂系统视角下的AI安全
专知会员服务
53+阅读 · 2024年1月2日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
大语言模型对齐研究综述
专知会员服务
56+阅读 · 2024年8月1日
生成式人工智能大型语言模型的安全性:概述
专知会员服务
35+阅读 · 2024年7月30日
人工智能模型中公平性追求的综述
专知会员服务
23+阅读 · 2024年3月30日
大语言模型安全现状与挑战
专知会员服务
88+阅读 · 2024年1月14日
大模型安全与对齐:复杂系统视角下的AI安全
专知会员服务
53+阅读 · 2024年1月2日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员