Authorship verification (AV) is the task of determining whether two texts were written by the same author and has been studied extensively, predominantly for English data. In contrast, large-scale benchmarks and systematic evaluations for other languages remain scarce. We address this gap by introducing GerAV, a comprehensive benchmark for German AV comprising over 600k labeled text pairs. GerAV is built from Twitter and Reddit data, with the Reddit part further divided into in-domain and cross-domain message-based subsets, as well as a profile-based subset. This design enables controlled analysis of the effects of data source, topical domain, and text length. Using the provided training splits, we conduct a systematic evaluation of strong baselines and state-of-the-art models and find that our best approach, a fine-tuned large language model, outperforms recent baselines by up to 0.09 absolute F1 score and surpasses GPT-5 in a zero-shot setting by 0.08. We further observe a trade-off between specialization and generalization: models trained on specific data types perform best under matching conditions but generalize less well across data regimes, a limitation that can be mitigated by combining training sources. Overall, GerAV provides a challenging and versatile benchmark for advancing research on German and cross-domain AV.


翻译:作者身份验证(AV)的任务是判定两篇文本是否由同一作者撰写,该领域已得到广泛研究,但主要集中于英语数据。相比之下,其他语言的大规模基准测试和系统性评估仍较为匮乏。为填补这一空白,我们提出了GerAV——一个包含超过60万标注文本对的德语作者身份验证综合基准。GerAV基于Twitter和Reddit数据构建,其中Reddit部分进一步划分为域内与跨域的消息型子集,以及基于用户档案的子集。该设计支持对数据来源、主题领域和文本长度的影响进行受控分析。利用提供的训练划分,我们对强基线模型和前沿模型进行了系统性评估,发现我们基于微调大语言模型的最佳方法,其绝对F1分数比近期基线模型最高提升0.09,并在零样本设定下超越GPT-5达0.08。我们进一步观察到专业化与泛化能力之间的权衡:在特定数据类型上训练的模型在匹配条件下表现最佳,但在跨数据机制中泛化能力较弱,这一局限可通过融合多源训练数据来缓解。总体而言,GerAV为推动德语及跨领域作者身份验证研究提供了一个具有挑战性且多功能的基准。

0
下载
关闭预览

相关内容

命名实体识别新SOTA:改进Transformer模型
AI科技评论
17+阅读 · 2019年11月26日
Bert最新进展,继续在NLP各领域开花结果!
机器学习算法与Python学习
20+阅读 · 2019年6月11日
推荐|上交大推出Texygen:文本生成模型的基准测试平台
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员