Misinformation spreading over the Internet poses a significant threat to both societies and individuals, necessitating robust and scalable fact-checking that relies on retrieving accurate and trustworthy evidence. Previous methods rely on semantic and social-contextual patterns learned from training data, which limits their generalization to new data distributions. Recently, Retrieval Augmented Generation (RAG) based methods have been proposed to utilize the reasoning capability of LLMs with retrieved grounding evidence documents. However, these methods largely rely on textual similarity for evidence retrieval and struggle to retrieve evidence that captures multi-hop semantic relations within rich document contents. These limitations lead to overlooking subtle factual correlations between the evidence and the claims to be fact-checked during evidence retrieval, thus causing inaccurate veracity predictions. To address these issues, we propose WKGFC, which exploits authorized open knowledge graph as a core resource of evidence. LLM-enabled retrieval is designed to assess the claims and retrieve the most relevant knowledge subgraphs, forming structured evidence for fact verification. To augment the knowledge graph evidence, we retrieve web contents for completion. The above process is implemented as an automatic Markov Decision Process (MDP): A reasoning LLM agent decides what actions to take according to the current evidence and the claims. To adapt the MDP for fact-checking, we use prompt optimization to fine-tune the agentic LLM.


翻译:互联网上传播的虚假信息对社会和个人均构成重大威胁,亟需依赖准确可信证据检索的鲁棒且可扩展的事实核查方法。现有方法依赖于从训练数据中习得的语义与社会语境模式,这限制了其对新数据分布的泛化能力。近期提出的基于检索增强生成(RAG)的方法尝试利用大语言模型(LLM)的推理能力,结合检索到的实体证据文档进行事实核查。然而,这些方法主要依赖文本相似性进行证据检索,难以从丰富的文档内容中捕获具有多跳语义关联的证据。这些局限性导致证据检索过程中容易忽略证据与待核查声明之间微妙的事实关联,从而造成真实性预测的偏差。为解决上述问题,我们提出WKGFC框架,该框架将权威开放知识图谱作为核心证据源。通过设计基于LLM的检索机制,系统能够评估声明内容并检索最相关的知识子图,构建用于事实核查的结构化证据。为增强知识图谱证据的完整性,我们同时检索网络内容进行补充。上述过程被实现为一个自动化的马尔可夫决策过程(MDP):由具备推理能力的LLM智能体根据当前证据与声明内容动态决策后续操作。为使MDP适应事实核查任务,我们采用提示优化技术对智能体LLM进行微调。

0
下载
关闭预览

相关内容

多模态检索增强生成的综合综述
专知会员服务
44+阅读 · 2025年2月17日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
92+阅读 · 2025年1月21日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
【CIKM2024】使用大型视觉语言模型的多模态虚假信息检测
生成型大型语言模型的自动事实核查:一项综述
专知会员服务
37+阅读 · 2024年7月6日
《利用 ChatGPT 实现高效事实核查》
专知会员服务
47+阅读 · 2023年10月25日
专知会员服务
15+阅读 · 2021年8月29日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
「基于通信的多智能体强化学习」 进展综述
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
热点! 虚假新闻检测综述
专知
111+阅读 · 2019年2月26日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
10+阅读 · 4月7日
无人机与僵局:俄乌战争难以突破
专知会员服务
3+阅读 · 4月7日
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
8+阅读 · 4月7日
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
10+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
10+阅读 · 4月5日
相关VIP内容
多模态检索增强生成的综合综述
专知会员服务
44+阅读 · 2025年2月17日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
92+阅读 · 2025年1月21日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
【CIKM2024】使用大型视觉语言模型的多模态虚假信息检测
生成型大型语言模型的自动事实核查:一项综述
专知会员服务
37+阅读 · 2024年7月6日
《利用 ChatGPT 实现高效事实核查》
专知会员服务
47+阅读 · 2023年10月25日
专知会员服务
15+阅读 · 2021年8月29日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员