大语言模型在自消耗表现循环中的偏差观察与缓解策略 (Observations and Remedies for Large Language Model Bias in Self-Consuming Performative Loop) - 专知论文

会员服务 ·

0

偏差 · 系统 · 语言模型 · 合成 · 反馈驱动 ·

Observations and Remedies for Large Language Model Bias in Self-Consuming Performative Loop

翻译：大语言模型在自消耗表现循环中的偏差观察与缓解策略

Yaxuan Wang,Zhongteng Cai,Yujia Bao,Xueru Zhang,Yang Liu

The rapid advancement of large language models (LLMs) has led to growing interest in using synthetic data to train future models. However, this creates a self-consuming retraining loop, where models are trained on their own outputs and may cause performance drops and induce emerging biases. In real-world applications, previously deployed LLMs may influence the data they generate, leading to a dynamic system driven by user feedback. For example, if a model continues to underserve users from a group, less query data will be collected from this particular demographic of users. In this study, we introduce the concept of \textbf{S}elf-\textbf{C}onsuming \textbf{P}erformative \textbf{L}oop (\textbf{SCPL}) and investigate the role of synthetic data in shaping bias during these dynamic iterative training processes under controlled performative feedback. This controlled setting is motivated by the inaccessibility of real-world user preference data from dynamic production systems, and enables us to isolate and analyze feedback-driven bias evolution in a principled manner. We focus on two types of loops, including the typical retraining setting and the incremental fine-tuning setting, which is largely underexplored. Through experiments on three real-world tasks, we find that the performative loop increases preference bias and decreases disparate bias. We design a reward-based rejection sampling strategy to mitigate the bias, moving towards more trustworthy self-improving systems.

翻译：大语言模型的快速发展促使人们日益关注使用合成数据训练未来模型。然而，这形成了一种自消耗的再训练循环——模型基于自身输出进行训练，可能导致性能下降并诱发新兴偏差。在实际应用中，先前部署的大语言模型可能影响其生成的数据，从而形成由用户反馈驱动的动态系统。例如，若模型持续对某一用户群体服务不足，从该特定人口统计特征用户收集的查询数据将随之减少。本研究引入**自消耗表现循环**概念，并在受控表现反馈条件下，探究合成数据在这些动态迭代训练过程中对偏差形成的作用。这一受控设置源于动态生产系统中真实用户偏好数据的不可获取性，使我们能够以系统化方式分离并分析反馈驱动的偏差演化。我们重点关注两种循环类型：典型的再训练设置与尚未被充分探索的增量微调设置。通过在三个实际任务上的实验，我们发现表现循环会增强偏好偏差并降低差异偏差。我们设计了一种基于奖励的拒绝采样策略以缓解此类偏差，推动自改进系统向更可信的方向发展。

0

相关内容

多模态大语言模型的自我改进：综述

多模态大语言模型的自我改进：综述

专知会员服务

25+阅读 · 2025年10月8日

大语言模型与视觉模型中的幻觉现象理解综述

大语言模型与视觉模型中的幻觉现象理解综述

专知会员服务

21+阅读 · 2025年10月2日

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

48+阅读 · 2024年7月9日

大语言模型的终身学习综述

大语言模型的终身学习综述

专知会员服务

75+阅读 · 2024年6月15日

《大型语言模型持续学习》综述

《大型语言模型持续学习》综述

专知会员服务

93+阅读 · 2024年4月26日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

一文速览大语言模型提示最新进展

一文速览大语言模型提示最新进展

专知会员服务

80+阅读 · 2023年12月24日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Context-aware Fairness Evaluation and Mitigation in LLMs

Arxiv

0+阅读 · 1月30日

Closing the Data-Efficiency Gap Between Autoregressive and Masked Diffusion LLMs

Arxiv

0+阅读 · 1月28日

Geometric Dynamics of Agentic Loops in Large Language Models

Arxiv

0+阅读 · 1月27日

Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning

Arxiv

0+阅读 · 1月26日

Unlearning in LLMs: Methods, Evaluation, and Open Challenges

Arxiv

0+阅读 · 1月19日

Model See, Model Do? Exposure-Aware Evaluation of Bug-vs-Fix Preference in Code LLMs

Arxiv

0+阅读 · 1月15日

Large Language Model-Based Automatic Formulation for Stochastic Optimization Models

Arxiv

0+阅读 · 1月14日

Cognitive Biases in LLM-Assisted Software Development

Arxiv

0+阅读 · 1月12日

ContextFocus: Activation Steering for Contextual Faithfulness in Large Language Models

Arxiv

0+阅读 · 1月7日

Detecting Performance Degradation under Data Shift in Pathology Vision-Language Model

Arxiv

0+阅读 · 1月2日

VIP会员

文章信息

相关主题

相关VIP内容

多模态大语言模型的自我改进：综述

多模态大语言模型的自我改进：综述

专知会员服务

25+阅读 · 2025年10月8日

大语言模型与视觉模型中的幻觉现象理解综述

大语言模型与视觉模型中的幻觉现象理解综述

专知会员服务

21+阅读 · 2025年10月2日

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

48+阅读 · 2024年7月9日

大语言模型的终身学习综述

大语言模型的终身学习综述

专知会员服务

75+阅读 · 2024年6月15日

《大型语言模型持续学习》综述

《大型语言模型持续学习》综述

专知会员服务

93+阅读 · 2024年4月26日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

一文速览大语言模型提示最新进展

一文速览大语言模型提示最新进展

专知会员服务

80+阅读 · 2023年12月24日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Context-aware Fairness Evaluation and Mitigation in LLMs

Arxiv

0+阅读 · 1月30日

Closing the Data-Efficiency Gap Between Autoregressive and Masked Diffusion LLMs

Arxiv

0+阅读 · 1月28日

Geometric Dynamics of Agentic Loops in Large Language Models

Arxiv

0+阅读 · 1月27日

Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning

Arxiv

0+阅读 · 1月26日

Unlearning in LLMs: Methods, Evaluation, and Open Challenges

Arxiv

0+阅读 · 1月19日

Model See, Model Do? Exposure-Aware Evaluation of Bug-vs-Fix Preference in Code LLMs

Arxiv

0+阅读 · 1月15日

Large Language Model-Based Automatic Formulation for Stochastic Optimization Models

Arxiv

0+阅读 · 1月14日

Cognitive Biases in LLM-Assisted Software Development

Arxiv

0+阅读 · 1月12日

ContextFocus: Activation Steering for Contextual Faithfulness in Large Language Models

Arxiv

0+阅读 · 1月7日

Detecting Performance Degradation under Data Shift in Pathology Vision-Language Model

Arxiv

0+阅读 · 1月2日

相关基金

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员