Large language models (LLMs) increasingly mediate human communication, decision support, content creation, and information retrieval. Despite impressive fluency, these systems frequently produce biased or stereotypical content, especially when prompted with socially sensitive language. A growing body of research has demonstrated that such biases disproportionately affect low-resource languages, where training data is limited and culturally unrepresentative. This paper presents a comprehensive study of inference-time bias mitigation, a strategy that avoids retraining or fine-tuning and instead operates directly on model outputs. Building on preference-ranking models (PRMs), we introduce a unified evaluation framework comparing three methods: (1) baseline single-word generation, (2) PRM-Select best-of-N sampling, and (3) PRM-Sequential refinement guided by PRM critiques. We evaluate these techniques across 200 English prompts and their Urdu counterparts, designed to reflect socio-cultural contexts relevant to gender, ethnicity, religion, nationality, disability, profession, age, and socioeconomic categories. Using GPT-3.5 as a candidate generator and GPT-4o-mini as a PRM-based bias and utility scorer, we provide an extensive quantitative analysis of bias reduction, utility preservation, and cross-lingual disparities. Our findings show: (a) substantial gains over the baseline for both languages; (b) consistently lower fairness scores for Urdu across all methods, highlighting structural inequities in multilingual LLM training; and (c) distinct improvement trajectories between PRM-Select and PRM-Sequential. The study contributes an extensible methodology, interpretable metrics, and cross-lingual comparisons that can support future work on fairness evaluation in low-resource languages.


翻译:大规模语言模型(LLMs)日益介入人类沟通、决策支持、内容创作和信息检索。尽管这些系统展现出令人印象深刻的流畅性,它们却频繁生成带有偏见或刻板印象的内容,尤其是在涉及社会敏感语言的提示下。越来越多的研究表明,此类偏见对低资源语言的影响尤为严重,因为这些语言的训练数据有限且缺乏文化代表性。本文对推理时偏见缓解策略进行了全面研究,该策略避免了重新训练或微调,而是直接对模型输出进行操作。基于偏好排序模型(PRMs),我们提出了一个统一的评估框架,比较了三种方法:(1)基线单词生成,(2)PRM-Select最佳N采样,以及(3)由PRM批判引导的PRM-Sequential精调。我们在200个英语提示及其乌尔都语对应版本上评估了这些技术,这些提示设计反映了与性别、种族、宗教、国籍、残疾、职业、年龄和社会经济类别相关的社会文化背景。使用GPT-3.5作为候选生成器,GPT-4o-mini作为基于PRM的偏见与效用评分器,我们提供了关于偏见减少、效用保持和跨语言差异的广泛定量分析。我们的研究结果表明:(a)两种语言相较于基线均有显著提升;(b)在所有方法中,乌尔都语的公平性得分持续较低,突显了多语言LLM训练中的结构性不平等;(c)PRM-Select与PRM-Sequential之间存在不同的改进轨迹。本研究贡献了一个可扩展的方法论、可解释的度量指标以及跨语言比较,可为未来低资源语言公平性评估工作提供支持。

0
下载
关闭预览

相关内容

缩小调整的幅度,精度高,准确性高。
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2025年12月30日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员