Learning from Synthetic Data: Limitations of ERM - 专知论文

会员服务 ·

0

合成 · 经验风险 · 经验风险最小化 · 算法 · 合成数据 ·

Learning from Synthetic Data: Limitations of ERM

翻译：从合成数据中学习：经验风险最小化的局限性

Kareem Amin,Alex Bie,Weiwei Kong,Umar Syed,Sergei Vassilvitskii

The prevalence and low cost of LLMs have led to a rise of synthetic content. From review sites to court documents, "natural" content has been contaminated by data points that appear similar to natural data, but are in fact LLM-generated. In this work we revisit fundamental learning theory questions in this, now ubiquitous, setting. We model this scenario as a sequence of learning tasks where the input is a mix of natural and synthetic data, and the learning algorithms are oblivious to the origin of any individual example. We study the possibilities and limitations of ERM in this setting. For the problem of estimating the mean of an arbitrary $d$-dimensional distribution, we find that while ERM converges to the true mean, it is outperformed by an algorithm that assigns non-uniform weights to examples from different generations of data. For the PAC learning setting, the disparity is even more stark. We find that ERM does not always converge to the true concept, echoing the model collapse literature. However, we show there are algorithms capable of learning the correct hypothesis for arbitrary VC classes and arbitrary amounts of contamination.

翻译：大型语言模型（LLM）的普及和低成本导致了合成内容的兴起。从评论网站到法庭文件，“自然”内容已被看似与自然数据相似、实则由LLM生成的数据点所污染。本研究重新探讨了在这一现已普遍存在的场景中的基础学习理论问题。我们将该场景建模为一系列学习任务，其中输入是自然数据与合成数据的混合，且学习算法无法识别任何单个样本的来源。我们在此背景下研究了经验风险最小化（ERM）的可能性与局限性。针对任意$d$维分布均值估计问题，我们发现虽然ERM会收敛至真实均值，但其性能逊色于一种对不同数据生成阶段的样本分配非均匀权重的算法。在PAC学习场景中，这种差异更为显著。我们发现ERM并不总是收敛至真实概念，这与模型崩溃文献的结论相呼应。然而，我们证明了存在能够针对任意VC类及任意污染程度学习正确假设的算法。

0

相关内容

【MIT博士论文】弱监督学习：理论、方法与应用

【MIT博士论文】弱监督学习：理论、方法与应用

专知会员服务

33+阅读 · 2025年12月21日

【ACL2025教程】LLM时代的合成数据，228页slides

【ACL2025教程】LLM时代的合成数据，228页slides

专知会员服务

31+阅读 · 2025年7月30日

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

专知会员服务

32+阅读 · 2024年12月10日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

知识图谱与大模型融合综述

知识图谱与大模型融合综述

专知会员服务

120+阅读 · 2024年6月30日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

小数据如何学习？佐治亚理工杨笛一等《有限文本数据学习》ACL2022教程，阐述最新前沿技术，附Slides

小数据如何学习？佐治亚理工杨笛一等《有限文本数据学习》ACL2022教程，阐述最新前沿技术，附Slides

专知会员服务

34+阅读 · 2022年5月23日

【ACL2022教程】有限文本数据学习，Learning with Limited Text Data

【ACL2022教程】有限文本数据学习，Learning with Limited Text Data

专知会员服务

29+阅读 · 2022年5月22日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知

10+阅读 · 2022年2月10日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

强化学习与文本生成

强化学习与文本生成

微信AI

41+阅读 · 2019年4月4日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

【知识图谱】基于神经网络的实体识别和关系抽取联合学习

【知识图谱】基于神经网络的实体识别和关系抽取联合学习

产业智能官

25+阅读 · 2017年12月6日

基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54

基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54

PaperWeekly

13+阅读 · 2017年12月4日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

DS$^2$-Instruct: Domain-Specific Data Synthesis for Large Language Models Instruction Tuning

Arxiv

0+阅读 · 3月13日

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

Arxiv

0+阅读 · 3月11日

Learning from Synthetic Data Improves Multi-hop Reasoning

Arxiv

0+阅读 · 3月2日

The Digital Divide in Generative AI: Evidence from Large Language Model Use in College Admissions Essays

Arxiv

0+阅读 · 2月19日

A Scoping Review of Synthetic Data Generation by Language Models in Biomedical Research and Application: Data Utility and Quality Perspectives

Arxiv

0+阅读 · 2月17日

Don't Always Pick the Highest-Performing Model: An Information Theoretic View of LLM Ensemble Selection

Arxiv

0+阅读 · 2月8日

Evaluating the Vulnerability Landscape of LLM-Generated Smart Contracts

Arxiv

0+阅读 · 2月3日

UniGeM: Unifying Data Mixing and Selection via Geometric Exploration and Mining

Arxiv

0+阅读 · 2月3日

An Empirical Study on Noisy Data and LLM Pretraining Loss Divergence

Arxiv

0+阅读 · 2月2日

Think Less, Label Better: Multi-Stage Domain-Grounded Synthetic Data Generation for Fine-Tuning Large Language Models in Telecommunications

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

经验风险最小化

最新内容

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

1+阅读 · 33分钟前

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

3+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

4+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

2+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

3+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

5+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

4+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

5+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

13+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

相关VIP内容

【MIT博士论文】弱监督学习：理论、方法与应用

【MIT博士论文】弱监督学习：理论、方法与应用

专知会员服务

33+阅读 · 2025年12月21日

【ACL2025教程】LLM时代的合成数据，228页slides

【ACL2025教程】LLM时代的合成数据，228页slides

专知会员服务

31+阅读 · 2025年7月30日

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

专知会员服务

32+阅读 · 2024年12月10日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

知识图谱与大模型融合综述

知识图谱与大模型融合综述

专知会员服务

120+阅读 · 2024年6月30日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

小数据如何学习？佐治亚理工杨笛一等《有限文本数据学习》ACL2022教程，阐述最新前沿技术，附Slides

小数据如何学习？佐治亚理工杨笛一等《有限文本数据学习》ACL2022教程，阐述最新前沿技术，附Slides

专知会员服务

34+阅读 · 2022年5月23日

【ACL2022教程】有限文本数据学习，Learning with Limited Text Data

【ACL2022教程】有限文本数据学习，Learning with Limited Text Data

专知会员服务

29+阅读 · 2022年5月22日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

伊朗战争中的电子战

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知

10+阅读 · 2022年2月10日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

强化学习与文本生成

强化学习与文本生成

微信AI

41+阅读 · 2019年4月4日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

【知识图谱】基于神经网络的实体识别和关系抽取联合学习

【知识图谱】基于神经网络的实体识别和关系抽取联合学习

产业智能官

25+阅读 · 2017年12月6日

基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54

基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54

PaperWeekly

13+阅读 · 2017年12月4日

相关论文

DS$^2$-Instruct: Domain-Specific Data Synthesis for Large Language Models Instruction Tuning

Arxiv

0+阅读 · 3月13日

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

Arxiv

0+阅读 · 3月11日

Learning from Synthetic Data Improves Multi-hop Reasoning

Arxiv

0+阅读 · 3月2日

The Digital Divide in Generative AI: Evidence from Large Language Model Use in College Admissions Essays

Arxiv

0+阅读 · 2月19日

A Scoping Review of Synthetic Data Generation by Language Models in Biomedical Research and Application: Data Utility and Quality Perspectives

Arxiv

0+阅读 · 2月17日

Don't Always Pick the Highest-Performing Model: An Information Theoretic View of LLM Ensemble Selection

Arxiv

0+阅读 · 2月8日

Evaluating the Vulnerability Landscape of LLM-Generated Smart Contracts

Arxiv

0+阅读 · 2月3日

UniGeM: Unifying Data Mixing and Selection via Geometric Exploration and Mining

Arxiv

0+阅读 · 2月3日

An Empirical Study on Noisy Data and LLM Pretraining Loss Divergence

Arxiv

0+阅读 · 2月2日

Think Less, Label Better: Multi-Stage Domain-Grounded Synthetic Data Generation for Fine-Tuning Large Language Models in Telecommunications

Arxiv

0+阅读 · 1月30日

相关基金

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员