Tracing connections between historical texts is an important part of intertextual research, enabling scholars to reconstruct the virtual library of a writer and identify the sources influencing their creative process. These intertextual links manifest in diverse forms, ranging from direct verbatim quotations to subtle allusions and paraphrases disguised by morphological variation. Language models offer a promising path forward due to their capability of capturing semantic similarity beyond lexical overlap. However, the development of new methods for this task is held back by the scarcity of standardized benchmarks and easy-to-use datasets. We address this gap by introducing Loci Similes, a benchmark for Latin intertextuality detection comprising of a curated dataset of ~172k text segments containing 545 expert-verified parallels linking Late Antique authors to a corpus of classical authors. Using this data, we establish baselines for retrieval and classification of intertextualities with state-of-the-art LLMs.


翻译:追溯历史文本间的关联是互文性研究的重要组成部分,它使学者能够重构作者的虚拟图书馆,并识别影响其创作过程的来源。这些互文性链接以多种形式呈现,从直接的逐字引用到因形态变化而伪装的微妙典故与转述。语言模型因其能够捕捉超越词汇重叠的语义相似性,为此任务提供了前景广阔的路径。然而,由于缺乏标准化的基准和易于使用的数据集,针对此任务的新方法开发受到阻碍。我们通过引入Loci Similes来填补这一空白,这是一个用于拉丁语互文性检测的基准,包含一个精心策划的数据集,约17.2万个文本片段,其中包含545个经过专家验证的、将晚期古代作家与古典作家语料库联系起来的平行文本。利用这些数据,我们为使用最先进的大型语言模型进行互文性的检索与分类建立了基线。

0
下载
关闭预览

相关内容

基于深度学习的中文文本分类综述
专知会员服务
25+阅读 · 2024年5月9日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【SCIR笔记】文档级事件抽取简述
深度学习自然语言处理
17+阅读 · 2020年7月30日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员