Semantics-Aware Generative Latent Data Augmentation for Learning in Low-Resource Domains - 专知论文

会员服务 ·

0

隐空间 · 数据增强 · 空间数据 · 低资源 · 源领域 ·

Semantics-Aware Generative Latent Data Augmentation for Learning in Low-Resource Domains

翻译：语义感知的生成式隐空间数据增强方法及其在低资源领域学习中的应用

Jaesung Bae,Minje Kim

Despite strong performance in data-rich regimes, deep learning often underperforms in the data-scarce settings common in practice. While foundation models (FMs) trained on massive datasets demonstrate strong generalization by extracting general-purpose features, they can still suffer from scarce labeled data during downstream fine-tuning. To address this, we propose GeLDA, a semantics-aware generative latent data augmentation framework that leverages conditional diffusion models to synthesize samples in an FM-induced latent space. Because this space is low-dimensional and concentrates task-relevant information compared to the input space, GeLDA enables efficient, high-quality data generation. GeLDA conditions generation on auxiliary feature vectors that capture semantic relationships among classes or subdomains, facilitating data augmentation in low-resource domains. We validate GeLDA in two large-scale recognition tasks: (a) in zero-shot language-specific speech emotion recognition, GeLDA improves the Whisper-large baseline's unweighted average recall by 6.13%; and (b) in long-tailed image classification, it achieves 74.7% tail-class accuracy on ImageNet-LT, setting a new state-of-the-art result.

翻译：尽管深度学习在数据丰富的场景下表现优异，但在实践中常见的数据稀缺环境中其性能往往不佳。虽然基于海量数据训练的基础模型通过提取通用特征展现出强大的泛化能力，但在下游微调阶段仍可能受限于标注数据的稀缺。为此，我们提出GeLDA——一种语义感知的生成式隐空间数据增强框架，该框架利用条件扩散模型在基础模型诱导的隐空间中合成样本。由于该空间相较于输入空间具有低维特性且能集中任务相关信息，GeLDA能够实现高效、高质量的数据生成。GeLDA以捕捉类别或子域间语义关系的辅助特征向量作为生成条件，从而促进低资源领域的数据增强。我们在两个大规模识别任务中验证了GeLDA的有效性：(a)在零样本语言特定语音情感识别任务中，GeLDA将Whisper-large基线的未加权平均召回率提升了6.13%；(b)在长尾图像分类任务中，该方法在ImageNet-LT数据集上取得了74.7%的尾部类别准确率，创造了新的最优性能记录。

0

相关内容

隐空间

《利用合成数据生成加强军事决策支持》

《利用合成数据生成加强军事决策支持》

专知会员服务

42+阅读 · 2024年12月30日

浙大数据智能团队最新综述：生成式AI时代下表格数据增强的进展与展望

浙大数据智能团队最新综述：生成式AI时代下表格数据增强的进展与展望

专知会员服务

22+阅读 · 2024年8月7日

生成技术在时空数据挖掘中的应用

生成技术在时空数据挖掘中的应用

专知会员服务

39+阅读 · 2024年6月5日

最新《生成式数据增强的统一框架》综述，85页pdf

最新《生成式数据增强的统一框架》综述，85页pdf

专知会员服务

65+阅读 · 2023年10月8日

深度学习如何集成领域知识？IBM研究等《知识增强深度学习》综述，全面阐述科学与经验知识增强的深度学习

深度学习如何集成领域知识？IBM研究等《知识增强深度学习》综述，全面阐述科学与经验知识增强的深度学习

专知会员服务

80+阅读 · 2022年12月3日

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

专知会员服务

87+阅读 · 2022年7月5日

哈工大最新《自然语言处理数据增强方法》综述论文，155页pdf阐述复述、噪声和抽样三大数据增强方法

专知会员服务

48+阅读 · 2021年10月16日

序列数据的数据增强方法综述

专知会员服务

74+阅读 · 2021年7月21日

深度学习图像数据增广方法研究综述

专知会员服务

53+阅读 · 2021年3月22日

融合零样本学习和小样本学习的弱监督机器学习方法综述

专知会员服务

113+阅读 · 2020年3月20日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

学会原创 | 自然语言的语义表示学习方法与应用

学会原创 | 自然语言的语义表示学习方法与应用

中国人工智能学会

11+阅读 · 2019年3月7日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

数据增强：数据有限时如何使用深度学习？（续）

数据增强：数据有限时如何使用深度学习？（续）

AI研习社

14+阅读 · 2018年5月6日

见微知著：语义分割中的弱监督学习

见微知著：语义分割中的弱监督学习

深度学习大讲堂

11+阅读 · 2017年12月6日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下稀有类数据挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

Arxiv

0+阅读 · 3月11日

Grounding Synthetic Data Generation With Vision and Language Models

Arxiv

0+阅读 · 3月10日

Learning from Synthetic Data Improves Multi-hop Reasoning

Arxiv

0+阅读 · 3月2日

Sparse Bayesian Deep Functional Learning with Structured Region Selection

Arxiv

0+阅读 · 2月24日

Sequential Data Augmentation for Generative Recommendation

Arxiv

0+阅读 · 2月22日

Adapting Actively on the Fly: Relevance-Guided Online Meta-Learning with Latent Concepts for Geospatial Discovery

Arxiv

0+阅读 · 2月19日

Learning to Extract Rational Evidence via Reinforcement Learning for Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月16日

Goal-Conditioned Reinforcement Learning from Sub-Optimal Data on Metric Spaces

Arxiv

0+阅读 · 2月11日

TabNSA: Native Sparse Attention for Efficient Tabular Data Learning

Arxiv

0+阅读 · 2月10日

Reinforcement Learning Enhancement Using Vector Semantic Representation and Symbolic Reasoning for Human-Centered Autonomous Emergency Braking

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

专知会员服务

4+阅读 · 今天3:36

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

专知会员服务

1+阅读 · 今天3:23

探秘Palantir：驱动美情报的科技巨头

探秘Palantir：驱动美情报的科技巨头

专知会员服务

2+阅读 · 今天3:14

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

专知会员服务

3+阅读 · 今天3:09

《美国海军军事海运司令部 2026年手册》

《美国海军军事海运司令部 2026年手册》

专知会员服务

2+阅读 · 今天3:05

别再只盯着“杀手机器人”了：人工智能真正变革现代战争的三种方式

别再只盯着“杀手机器人”了：人工智能真正变革现代战争的三种方式

专知会员服务

2+阅读 · 今天2:36

《人工智能使能系统可靠性框架》

《人工智能使能系统可靠性框架》

专知会员服务

5+阅读 · 今天2:28

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

14+阅读 · 4月26日

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

12+阅读 · 4月26日

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

7+阅读 · 4月26日

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

7+阅读 · 4月26日

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

12+阅读 · 4月26日

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

10+阅读 · 4月26日

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

7+阅读 · 4月26日

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

9+阅读 · 4月26日

相关VIP内容

《利用合成数据生成加强军事决策支持》

《利用合成数据生成加强军事决策支持》

专知会员服务

42+阅读 · 2024年12月30日

浙大数据智能团队最新综述：生成式AI时代下表格数据增强的进展与展望

浙大数据智能团队最新综述：生成式AI时代下表格数据增强的进展与展望

专知会员服务

22+阅读 · 2024年8月7日

生成技术在时空数据挖掘中的应用

生成技术在时空数据挖掘中的应用

专知会员服务

39+阅读 · 2024年6月5日

最新《生成式数据增强的统一框架》综述，85页pdf

最新《生成式数据增强的统一框架》综述，85页pdf

专知会员服务

65+阅读 · 2023年10月8日

深度学习如何集成领域知识？IBM研究等《知识增强深度学习》综述，全面阐述科学与经验知识增强的深度学习

深度学习如何集成领域知识？IBM研究等《知识增强深度学习》综述，全面阐述科学与经验知识增强的深度学习

专知会员服务

80+阅读 · 2022年12月3日

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

【AI与军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

专知会员服务

87+阅读 · 2022年7月5日

哈工大最新《自然语言处理数据增强方法》综述论文，155页pdf阐述复述、噪声和抽样三大数据增强方法

专知会员服务

48+阅读 · 2021年10月16日

序列数据的数据增强方法综述

专知会员服务

74+阅读 · 2021年7月21日

深度学习图像数据增广方法研究综述

专知会员服务

53+阅读 · 2021年3月22日

融合零样本学习和小样本学习的弱监督机器学习方法综述

专知会员服务

113+阅读 · 2020年3月20日

热门VIP内容

开通专知VIP会员享更多权益服务

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

探秘Palantir：驱动美情报的科技巨头

相关资讯

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

学会原创 | 自然语言的语义表示学习方法与应用

学会原创 | 自然语言的语义表示学习方法与应用

中国人工智能学会

11+阅读 · 2019年3月7日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

数据增强：数据有限时如何使用深度学习？（续）

数据增强：数据有限时如何使用深度学习？（续）

AI研习社

14+阅读 · 2018年5月6日

见微知著：语义分割中的弱监督学习

见微知著：语义分割中的弱监督学习

深度学习大讲堂

11+阅读 · 2017年12月6日

相关论文

ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

Arxiv

0+阅读 · 3月11日

Grounding Synthetic Data Generation With Vision and Language Models

Arxiv

0+阅读 · 3月10日

Learning from Synthetic Data Improves Multi-hop Reasoning

Arxiv

0+阅读 · 3月2日

Sparse Bayesian Deep Functional Learning with Structured Region Selection

Arxiv

0+阅读 · 2月24日

Sequential Data Augmentation for Generative Recommendation

Arxiv

0+阅读 · 2月22日

Adapting Actively on the Fly: Relevance-Guided Online Meta-Learning with Latent Concepts for Geospatial Discovery

Arxiv

0+阅读 · 2月19日

Learning to Extract Rational Evidence via Reinforcement Learning for Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月16日

Goal-Conditioned Reinforcement Learning from Sub-Optimal Data on Metric Spaces

Arxiv

0+阅读 · 2月11日

TabNSA: Native Sparse Attention for Efficient Tabular Data Learning

Arxiv

0+阅读 · 2月10日

Reinforcement Learning Enhancement Using Vector Semantic Representation and Symbolic Reasoning for Human-Centered Autonomous Emergency Braking

Arxiv

0+阅读 · 2月4日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下稀有类数据挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员