Verifiable claim detection asks whether a claim expresses a factual statement that can, in principle, be assessed against external evidence. As an early filtering stage in automated fact-checking, it plays an important role in reducing the burden on downstream verification components. However, existing approaches to claim detection, whether based on check-worthiness or verifiability, rely solely on the claim text itself. This is a notable limitation for verifiable claim detection in particular, where determining whether a claim is checkable may benefit from knowing what entities and events it refers to and whether relevant information exists to support verification. Inspired by the established role of evidence retrieval in later-stage claim verification, we propose Context-Driven Claim Detection (ContextClaim), a paradigm that advances retrieval to the detection stage. ContextClaim extracts entity mentions from the input claim, retrieves relevant information from Wikipedia as a structured knowledge source, and employs large language models to produce concise contextual summaries for downstream classification. We evaluate ContextClaim on two datasets covering different topics and text genres, the CheckThat! 2022 COVID-19 Twitter dataset and the PoliClaim political debate dataset, across encoder-only and decoder-only models under fine-tuning, zero-shot, and few-shot settings. Results show that context augmentation can improve verifiable claim detection, although its effectiveness varies across domains, model architectures, and learning settings. Through component analysis, human evaluation, and error analysis, we further examine when and why the retrieved context contributes to more reliable verifiability judgments.


翻译:摘要:可验证声明检测旨在判断某一声明是否表达了一种原则上可基于外部证据进行评估的事实性陈述。作为自动化事实核查中的早期过滤阶段,它在减轻下游验证组件的负担方面发挥着重要作用。然而,现有声明检测方法(无论是基于核查价值还是可验证性)仅依赖于声明文本本身。这尤其限制了可验证声明检测的发展——在此类任务中,判断某一声明是否可核查可能需要了解其所指代的具体实体与事件,以及是否存在支持验证的相关信息。受后期声明验证阶段中证据检索已确立作用的启发,我们提出上下文驱动声明检测范式(ContextClaim),将检索功能前置到检测阶段。ContextClaim从输入声明中提取实体提及,从结构化知识源维基百科中检索相关信息,并利用大语言模型生成简洁的上下文摘要以支持下游分类。我们在两个涵盖不同主题与文本类型的数据集(CheckThat! 2022 COVID-19推特数据集与PoliClaim政治辩论数据集)上,基于编码器-only与解码器-only模型在微调、零样本与少样本设置下进行评估。结果显示,上下文增强能够改善可验证声明检测,但其效果因领域、模型架构与学习设置而异。通过组件分析、人工评估与错误分析,我们进一步探究了检索上下文何时及为何有助于更可靠的可验证性判断。

0
下载
关闭预览

相关内容

【剑桥博士论文】神经-符号事实验证
专知会员服务
18+阅读 · 2025年5月18日
【AAAI2022】谣言粉碎机!可解释事实检验算法研究
专知会员服务
17+阅读 · 2022年1月30日
专知会员服务
15+阅读 · 2021年8月29日
专知会员服务
24+阅读 · 2021年6月19日
论文盘点:CVPR 2019 - 文本检测专题
PaperWeekly
14+阅读 · 2019年5月31日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员