Large language models (LLMs) increasingly influence global digital ecosystems, yet their potential to perpetuate social and cultural biases remains poorly understood in underrepresented contexts. This study presents a systematic analysis of representational biases in seven state-of-the-art LLMs: GPT-4o-mini, Claude-3-Sonnet, Claude-4-Sonnet, Gemini-2.0-Flash, Gemini-2.0-Lite, Llama-3-70B, and Mistral-Nemo in the Nepali cultural context. Using Croissant-compliant dataset of 2400+ stereotypical and anti-stereotypical sentence pairs on gender roles across social domains, we implement an evaluation framework, Dual-Metric Bias Assessment (DMBA), combining two metrics: (1) agreement with biased statements and (2) stereotypical completion tendencies. Results show models exhibit measurable explicit agreement bias, with mean bias agreement ranging from 0.36 to 0.43 across decoding configurations, and an implicit completion bias rate of 0.740-0.755. Importantly, implicit completion bias follows a non-linear, U-shaped relationship with temperature, peaking at moderate stochasticity (T=0.3) and declining slightly at higher temperatures. Correlation analysis under different decoding settings revealed that explicit agreement strongly aligns with stereotypical sentence agreement but is a weak and often negative predictor of implicit completion bias, indicating generative bias is poorly captured by agreement metrics. Sensitivity analysis shows increasing top-p amplifies explicit bias, while implicit generative bias remains largely stable. Domain-level analysis shows implicit bias is strongest for race and sociocultural stereotypes, while explicit agreement bias is similar across gender and sociocultural categories, with race showing the lowest explicit agreement. These findings highlight the need for culturally grounded datasets and debiasing strategies for LLMs in underrepresented societies.


翻译:大型语言模型(LLMs)对全球数字生态系统的影响日益增强,然而其在代表性不足的背景下延续社会与文化偏见的潜力仍鲜为人知。本研究对七种最先进的LLMs在尼泊尔文化背景下的表征偏见进行了系统分析,这些模型包括:GPT-4o-mini、Claude-3-Sonnet、Claude-4-Sonnet、Gemini-2.0-Flash、Gemini-2.0-Lite、Llama-3-70B和Mistral-Nemo。我们利用一个符合Croissant标准的、包含2400多对社会领域性别角色刻板印象与反刻板印象句对的数据集,实施了一个评估框架——双指标偏见评估(DMBA)。该框架结合了两种指标:(1)对偏见陈述的认同度,以及(2)刻板印象补全倾向。结果显示,模型表现出可测量的显性认同偏见,在不同解码配置下,平均偏见认同度介于0.36至0.43之间;隐性补全偏见率则在0.740至0.755之间。重要的是,隐性补全偏见与温度参数呈非线性的U型关系,在中等随机性水平(T=0.3)达到峰值,并在更高温度下略有下降。不同解码设置下的相关性分析表明,显性认同度与刻板印象句子的认同度高度一致,但它是隐性补全偏见的弱预测因子,且常常呈负相关,这表明生成性偏见难以通过认同度指标捕捉。敏感性分析显示,增加top-p参数会放大显性偏见,而隐性生成偏见则基本保持稳定。领域层面的分析表明,隐性偏见在种族和社会文化刻板印象方面最强,而显性认同偏见在性别和社会文化类别间相似,其中种族类别的显性认同度最低。这些发现凸显了在代表性不足的社会中,为LLMs开发基于文化的数据集和去偏见策略的必要性。

0
下载
关闭预览

相关内容

评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
《多模态大语言模型评估综述》
专知会员服务
40+阅读 · 2024年8月29日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
「大型语言模型评测」综述
专知会员服务
70+阅读 · 2024年3月30日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
5+阅读 · 今天4:27
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
13+阅读 · 今天4:20
智能体化世界建模:基础、能力、规律及展望
专知会员服务
9+阅读 · 4月28日
美海警海上态势感知无人系统
专知会员服务
6+阅读 · 4月28日
相关VIP内容
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
《多模态大语言模型评估综述》
专知会员服务
40+阅读 · 2024年8月29日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
「大型语言模型评测」综述
专知会员服务
70+阅读 · 2024年3月30日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员