The ability to accurately align LLMs with population groups on subjective questions would have great value. In this work, we show that simple supervision can more consistently improve language model alignment with diverse population groups, as measured across three datasets spanning various topics. Beyond evaluating average alignment, we also report how alignment varies across specific groups. Our broad findings provide insights into the distributional alignment of LLMs with diverse populations. By conducting evaluation over many LLMs and prompting strategies, we provide a benchmark to stimulate future research.


翻译:使大语言模型在主观问题上与不同人群准确对齐的能力具有重要价值。本研究表明,简单的监督方法能够更稳定地提升语言模型与多样化人群的对齐效果,该结论在涵盖多个主题的三个数据集中均得到验证。除评估平均对齐度外,我们还报告了对齐效果在不同群体间的差异。我们的广泛研究结果为理解大语言模型与多样化人群的分布对齐特性提供了见解。通过对多种大语言模型及提示策略进行评估,我们建立了一个基准测试框架以推动未来研究。

0
下载
关闭预览

相关内容

迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大语言模型对齐研究综述
专知会员服务
56+阅读 · 2024年8月1日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
大语言模型价值观对齐研究与展望
专知会员服务
37+阅读 · 2024年3月19日
《大模型对齐方法》最新综述
专知会员服务
85+阅读 · 2024年3月8日
大型语言模型对齐
专知会员服务
119+阅读 · 2023年9月27日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大语言模型对齐研究综述
专知会员服务
56+阅读 · 2024年8月1日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
大语言模型价值观对齐研究与展望
专知会员服务
37+阅读 · 2024年3月19日
《大模型对齐方法》最新综述
专知会员服务
85+阅读 · 2024年3月8日
大型语言模型对齐
专知会员服务
119+阅读 · 2023年9月27日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员