Augmenting toxic language data in a controllable and class-specific manner is crucial for improving robustness in toxicity classification, yet remains challenging due to limited supervision and distributional skew. We propose ToxiGAN, a class-aware text augmentation framework that combines adversarial generation with semantic guidance from large language models (LLMs). To address common issues in GAN-based augmentation such as mode collapse and semantic drift, ToxiGAN introduces a two-step directional training strategy and leverages LLM-generated neutral texts as semantic ballast. Unlike prior work that treats LLMs as static generators, our approach dynamically selects neutral exemplars to provide balanced guidance. Toxic samples are explicitly optimized to diverge from these exemplars, reinforcing class-specific contrastive signals. Experiments on four hate speech benchmarks show that ToxiGAN achieves the strongest average performance in both macro-F1 and hate-F1, consistently outperforming traditional and LLM-based augmentation methods. Ablation and sensitivity analyses further confirm the benefits of semantic ballast and directional training in enhancing classifier robustness.


翻译:以可控且类别特定的方式增强有害语言数据对于提升毒性分类的鲁棒性至关重要,但由于监督有限和分布偏斜,这仍然具有挑战性。我们提出了ToxiGAN,一个结合了对抗生成与大语言模型(LLMs)语义引导的类别感知文本增强框架。为了解决基于GAN的增强中常见的模式崩溃和语义漂移问题,ToxiGAN引入了一种两步定向训练策略,并利用LLM生成的中性文本作为语义压舱物。与先前将LLMs视为静态生成器的工作不同,我们的方法动态选择中性示例以提供平衡的引导。有害样本被显式优化以偏离这些示例,从而强化了类别特定的对比信号。在四个仇恨言论基准测试上的实验表明,ToxiGAN在宏平均F1和仇恨言论F1指标上均取得了最强的平均性能,持续优于传统的和基于LLM的增强方法。消融实验和敏感性分析进一步证实了语义压舱物和定向训练在增强分类器鲁棒性方面的益处。

0
下载
关闭预览

相关内容

大语言模型中的检索与结构化增强生成综述
专知会员服务
32+阅读 · 2025年9月17日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
CFGAN:基于生成对抗网络的协同过滤框架
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
最新《生成式对抗网络GAN进展》论文
专知
95+阅读 · 2019年4月5日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员