Mixup generates augmented samples by linearly interpolating inputs and labels with a controllable ratio. However, since it operates in the latent embedding level, the resulting samples are not human-interpretable. In contrast, LLM-based augmentation methods produce sentences via prompts at the token level, yielding readable outputs but offering limited control over the generation process. Inspired by recent advances in LLM inversion, which reconstructs natural language from embeddings and helps bridge the gap between latent embedding space and discrete token space, we propose inversedMixup, a unified framework that combines the controllability of Mixup with the interpretability of LLM-based generation. Specifically, inversedMixup adopts a three-stage training procedure to align the output embedding space of a task-specific model with the input embedding space of an LLM. Upon successful alignment, inversedMixup can reconstruct mixed embeddings with a controllable mixing ratio into human-interpretable augmented sentences, thereby improving the augmentation performance. Additionally, inversedMixup provides the first empirical evidence of the manifold intrusion phenomenon in text Mixup and introduces a simple yet effective strategy to mitigate it. Extensive experiments demonstrate the effectiveness and generalizability of our approach in both few-shot and fully supervised scenarios.


翻译:Mixup通过以可控比例线性插值输入和标签来生成增强样本。然而,由于其在潜在嵌入层面进行操作,生成的样本不具备人类可解释性。相比之下,基于大语言模型(LLM)的增强方法通过提示在词元层面生成句子,虽然能产生可读输出,但对生成过程的控制有限。受近期LLM逆变换进展的启发——该技术从嵌入重构自然语言,有助于弥合潜在嵌入空间与离散词元空间之间的鸿沟——我们提出inversedMixup,这是一个将Mixup的可控性与基于LLM生成的可解释性相结合的统一框架。具体而言,inversedMixup采用三阶段训练流程,将任务特定模型的输出嵌入空间与大语言模型的输入嵌入空间对齐。成功对齐后,inversedMixup能够将以可控混合比例生成的混合嵌入重构为人类可解释的增强句子,从而提升增强性能。此外,inversedMixup首次为文本Mixup中的流形侵入现象提供了实证证据,并提出一种简单而有效的缓解策略。大量实验证明了我们的方法在少样本和全监督场景下的有效性与泛化能力。

0
下载
关闭预览

相关内容

多模态检索增强生成的综合综述
专知会员服务
44+阅读 · 2025年2月17日
《Mixup数据增强及其扩展》综述
专知会员服务
37+阅读 · 2024年9月15日
【KDD2024】GeoMix:迈向几何感知的数据增强技术
专知会员服务
19+阅读 · 2024年7月28日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国当前高超音速导弹发展概述
专知会员服务
0+阅读 · 26分钟前
《高超音速武器:一项再度兴起的技术》120页slides
无人机蜂群建模与仿真方法
专知会员服务
1+阅读 · 今天14:08
澳大利亚发布《国防战略(2026年)》
专知会员服务
0+阅读 · 今天13:42
【CMU博士论文】迈向基于基础先验的 4D 感知研究
专知会员服务
0+阅读 · 今天13:46
全球高超音速武器最新发展趋势
专知会员服务
1+阅读 · 今天13:17
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员