Learning robust representations of authorial style is crucial for authorship attribution and AI-generated text detection. However, existing methods often struggle with content-style entanglement, where models learn spurious correlations between authors' writing styles and topics, leading to poor generalization across domains. To address this challenge, we propose Explainable Authorship Variational Autoencoder (EAVAE), a novel framework that explicitly disentangles style from content through architectural separation-by-design. EAVAE first pretrains style encoders using supervised contrastive learning on diverse authorship data, then finetunes with a Variational Autoencoder (VEA) architecture using separate encoders for style and content representations. Disentanglement is enforced through a novel discriminator that not only distinguishes whether pairs of style/content representations belong to the same or different authors/content sources, but also generates natural language explanation for their decision, simultaneously mitigating confounding information and enhancing interpretability. Extensive experiments demonstrate the effectiveness of EAVAE. On authorship attribution, we achieve state-of-the-art performance on various datasets, including Amazon Reviews, PAN21, and HRS. For AI-generated text detection, EAVAE excels in few-shot learning over the M4 dataset. Code and data repositories are available online\footnote{https://github.com/hieum98/avae} \footnote{https://huggingface.co/collections/Hieuman/document-level-authorship-datasets}.


翻译:学习鲁棒的作者风格表征对于作者身份归因和AI生成文本检测至关重要。然而,现有方法常受困于内容-风格纠缠问题——模型会学习作者写作风格与主题之间的虚假关联,导致跨领域泛化能力不足。针对这一挑战,我们提出可解释作者变分自编码器(EAVAE),一种通过架构分离设计显式解耦风格与内容的新框架。EAVAE首先利用监督对比学习在多样化作者数据上预训练风格编码器,随后通过变分自编码器(VEA)架构,使用风格和内容表征的独立编码器进行微调。解耦过程通过新型判别器强化:该判别器不仅能区分风格/内容表征对是否属于相同或不同作者/内容来源,还能为其决策生成自然语言解释,同步缓解混淆信息并增强可解释性。大量实验证明了EAVAE的有效性。在作者身份归因任务中,我们在Amazon Reviews、PAN21和HRS等多个数据集上取得最优性能。对于AI生成文本检测,EAVAE在M4数据集上的小样本学习表现优异。代码和数据仓库已开源(https://github.com/hieum98/avae;https://huggingface.co/collections/Hieuman/document-level-authorship-datasets)。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
《可解释性强化学习模型》
专知会员服务
25+阅读 · 2月24日
可解释生成人工智能 (GenXAI):综述、概念化与研究议程
专知会员服务
40+阅读 · 2024年4月19日
可解释人工智能中基于梯度的特征归因技术综述
专知会员服务
29+阅读 · 2024年3月20日
清华最新《解耦表征学习》综述
专知会员服务
71+阅读 · 2023年2月23日
专知会员服务
54+阅读 · 2021年7月30日
机器学习的可解释性
专知会员服务
180+阅读 · 2020年8月27日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
AI可解释性文献列表
专知
43+阅读 · 2019年10月7日
可解释的机器学习
平均机器
25+阅读 · 2019年2月25日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
共享相关任务表征,一文读懂深度神经网络多任务学习
深度学习世界
16+阅读 · 2017年6月23日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月6日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
10+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关VIP内容
《可解释性强化学习模型》
专知会员服务
25+阅读 · 2月24日
可解释生成人工智能 (GenXAI):综述、概念化与研究议程
专知会员服务
40+阅读 · 2024年4月19日
可解释人工智能中基于梯度的特征归因技术综述
专知会员服务
29+阅读 · 2024年3月20日
清华最新《解耦表征学习》综述
专知会员服务
71+阅读 · 2023年2月23日
专知会员服务
54+阅读 · 2021年7月30日
机器学习的可解释性
专知会员服务
180+阅读 · 2020年8月27日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员