Online misinformation is increasingly pervasive, yet most existing benchmarks and methods evaluate veracity at the level of whole claims or paragraphs using coarse binary labels, obscuring how true and false details often co-exist within single sentences. These simplifications also limit interpretability: global explanations cannot identify which specific segments are misleading or differentiate how a detail is false (e.g., distorted vs. fabricated). To address these gaps, we introduce MisSpans, the first multi-domain, human-annotated benchmark for span-level misinformation detection and analysis, consisting of paired real and fake news stories. MisSpans defines three complementary tasks: MisSpansIdentity for pinpointing false spans within sentences, MisSpansType for categorising false spans by misinformation type, and MisSpansExplanation for providing rationales grounded in identified spans. Together, these tasks enable fine-grained localisation, nuanced characterisation beyond true/false and actionable explanations. Expert annotators were guided by standardised guidelines and consistency checks, leading to high inter-annotator agreement. We evaluate 15 representative LLMs, including reasoning-enhanced and non-reasoning variants, under zero-shot and one-shot settings. Results reveal the challenging nature of fine-grained misinformation identification and analysis, and highlight the need for a deeper understanding of how performance may be influenced by multiple interacting factors, including model size and reasoning capabilities, along with domain-specific textual features. This project will be available at https://github.com/lzw108/MisSpans.


翻译:在线虚假信息日益普遍,然而现有大多数基准和方法使用粗粒度的二元标签在整条声明或段落层面评估真实性,掩盖了真实与虚假细节常共存于单个句子中的现象。这些简化也限制了可解释性:全局解释无法识别哪些具体片段具有误导性,亦无法区分细节的虚假方式(例如扭曲事实与捏造事实)。为填补这些空白,我们提出了MisSpans,首个用于片段级虚假信息检测与分析的多领域人工标注基准,包含成对的真实与虚假新闻报道。MisSpans定义了三个互补任务:用于精确定位句子内虚假片段的MisSpansIdentity、用于按虚假信息类型分类虚假片段的MisSpansType,以及用于基于已识别片段提供依据的MisSpansExplanation。这些任务共同实现了细粒度定位、超越真/假二元判断的细致刻画,以及可操作的解释。专家标注员遵循标准化指南并接受一致性检验,获得了较高的标注者间一致性。我们评估了15个具有代表性的LLM,包括推理增强型与非推理型变体,在零样本和单样本设置下进行测试。结果揭示了细粒度虚假信息识别与分析任务的挑战性,并强调需要更深入地理解性能如何受多种交互因素影响,包括模型规模与推理能力,以及领域特定的文本特征。本项目可通过https://github.com/lzw108/MisSpans获取。

0
下载
关闭预览

相关内容

专知会员服务
24+阅读 · 2021年9月21日
【NeurIPS2019】图变换网络:Graph Transformer Network
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员