Mixup generates augmented samples by linearly interpolating inputs and labels with a controllable ratio. However, since it operates in the latent embedding level, the resulting samples are not human-interpretable. In contrast, LLM-based augmentation methods produce sentences via prompts at the token level, yielding readable outputs but offering limited control over the generation process. Inspired by recent advances in LLM inversion, which reconstructs natural language from embeddings and helps bridge the gap between latent embedding space and discrete token space, we propose inversedMixup, a unified framework that combines the controllability of Mixup with the interpretability of LLM-based generation. Specifically, inversedMixup adopts a three-stage training procedure to align the output embedding space of a task-specific model with the input embedding space of an LLM. Upon successful alignment, inversedMixup can reconstruct mixed embeddings with a controllable mixing ratio into human-interpretable augmented sentences, thereby improving the augmentation performance. Additionally, inversedMixup provides the first empirical evidence of the manifold intrusion phenomenon in text Mixup and introduces a simple yet effective strategy to mitigate it. Extensive experiments demonstrate the effectiveness and generalizability of our approach in both few-shot and fully supervised scenarios.


翻译:Mixup通过以可控比例线性插值输入和标签来生成增强样本。然而,由于其在潜在嵌入层面进行操作,生成的样本不具备人类可解释性。相比之下,基于大语言模型(LLM)的增强方法通过提示在词元层面生成句子,虽然能产生可读输出,但对生成过程的控制有限。受近期LLM逆变换进展的启发——该技术从嵌入重构自然语言,有助于弥合潜在嵌入空间与离散词元空间之间的鸿沟——我们提出inversedMixup,这是一个将Mixup的可控性与基于LLM生成的可解释性相结合的统一框架。具体而言,inversedMixup采用三阶段训练流程,将任务特定模型的输出嵌入空间与大语言模型的输入嵌入空间对齐。成功对齐后,inversedMixup能够将以可控混合比例生成的混合嵌入重构为人类可解释的增强句子,从而提升增强性能。此外,inversedMixup首次为文本Mixup中的流形侵入现象提供了实证证据,并提出一种简单而有效的缓解策略。大量实验证明了我们的方法在少样本和全监督场景下的有效性与泛化能力。

0
下载
关闭预览

相关内容

多模态检索增强生成的综合综述
专知会员服务
43+阅读 · 2025年2月17日
《Mixup数据增强及其扩展》综述
专知会员服务
37+阅读 · 2024年9月15日
【KDD2024】GeoMix:迈向几何感知的数据增强技术
专知会员服务
19+阅读 · 2024年7月28日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员