Pre-trained language models (LMs) have, over the last few years, grown substantially in both societal adoption and training costs. This rapid growth in size has constrained progress in understanding and mitigating their biases. Since re-training LMs is prohibitively expensive, most debiasing work has focused on post-hoc or masking-based strategies, which often fail to address the underlying causes of bias. In this work, we seek to democratise pre-model debiasing research by using low-cost proxy models. Specifically, we investigate BabyLMs, compact BERT-like models trained on small and mutable corpora that can approximate bias acquisition and learning dynamics of larger models. We show that BabyLMs display closely aligned patterns of intrinsic bias formation and performance development compared to standard BERT models, despite their drastically reduced size. Furthermore, correlations between BabyLMs and BERT hold across multiple intra-model and post-model debiasing methods. Leveraging these similarities, we conduct pre-model debiasing experiments with BabyLMs, replicating prior findings and presenting new insights regarding the influence of gender imbalance and toxicity on bias formation. Our results demonstrate that BabyLMs can serve as an effective sandbox for large-scale LMs, reducing pre-training costs from over 500 GPU-hours to under 30 GPU-hours. This provides a way to democratise pre-model debiasing research and enables faster, more accessible exploration of methods for building fairer LMs.


翻译:预训练语言模型(LMs)在过去几年中,无论在社会应用还是训练成本方面均实现了显著增长。模型规模的快速扩张制约了对其偏见的理解与缓解研究进展。由于重新训练语言模型的成本极其高昂,现有去偏工作大多集中于后处理或基于掩码的策略,这些方法往往难以触及偏见的根本成因。本研究旨在通过采用低成本代理模型,推动预模型去偏研究的民主化。具体而言,我们探究BabyLMs——这是一种基于小型可变语料库训练的紧凑型类BERT模型,能够近似模拟更大模型的偏见习得与学习动态。实验表明,尽管BabyLMs的规模大幅缩减,但其内在偏见形成模式与性能发展轨迹与标准BERT模型高度吻合。此外,BabyLMs与BERT之间的相关性在多种模型内与模型后去偏方法中均保持稳定。基于这些相似性,我们利用BabyLMs开展预模型去偏实验,不仅复现了已有研究发现,还就性别失衡与毒性内容对偏见形成的影响提出了新见解。研究结果证明,BabyLMs可作为大规模语言模型的有效实验沙盒,将预训练成本从超过500 GPU-小时降低至30 GPU-小时以内。这为民主化预模型去偏研究提供了可行路径,并为构建更公平语言模型的方法探索实现了更快速、更普惠的研究范式。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
直接偏好优化:一种新的RLHF方法,87页ppt
专知会员服务
43+阅读 · 2024年6月10日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
【NeurIPS2023】直接偏好优化,代替RLHF
专知会员服务
44+阅读 · 2024年1月7日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
BERT-预训练的强大
微信AI
61+阅读 · 2019年3月7日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员