ClaimDB: A Fact Verification Benchmark over Large Structured Data - 专知论文

会员服务 ·

0

基准 · 事实核查 · 结构 · 结构化 · 结构化数据 ·

ClaimDB: A Fact Verification Benchmark over Large Structured Data

翻译：ClaimDB：基于大规模结构化数据的事实核查基准

Michael Theologitis,Preetam Prabhu Srikar Dammu,Chirag Shah,Dan Suciu

from arxiv, The data, code, and leaderboard are available at https://claimdb.github.io

Despite substantial progress in fact-verification benchmarks, claims grounded in large-scale structured data remain underexplored. In this work, we introduce ClaimDB, the first fact-verification benchmark where the evidence for claims is derived from compositions of millions of records and multiple tables. ClaimDB consists of 80 unique real-life databases covering a wide range of domains, from governance and healthcare to media, education and the natural sciences. At this scale, verification approaches that rely on "reading" the evidence break down, forcing a timely shift toward reasoning in executable programs. We conduct extensive experiments with 30 state-of-the-art proprietary and open-source (below 70B) LLMs and find that none exceed 83% accuracy, with more than half below 55%. Our analysis also reveals that both closed- and open-source models struggle with abstention -- the ability to admit that there is no evidence to decide -- raising doubts about their reliability in high-stakes data analysis. We release the benchmark, code, and the LLM leaderboard at https://claimdb.github.io .

翻译：尽管事实核查基准已取得显著进展，但基于大规模结构化数据的声明验证仍未被充分探索。本研究提出了ClaimDB，这是首个证据来源于数百万条记录及多表组合的事实核查基准。ClaimDB包含80个独特的现实世界数据库，涵盖治理、医疗保健、媒体、教育及自然科学等多个领域。在此规模下，依赖“阅读”证据的验证方法已失效，亟需转向可执行程序中的推理范式。我们通过对30个最先进的专有与开源（低于700亿参数）大语言模型进行广泛实验，发现所有模型的准确率均未超过83%，超过半数模型低于55%。分析还表明，闭源与开源模型均难以实现“弃权判断”——即承认缺乏决策证据的能力——这对其在高风险数据分析中的可靠性提出了质疑。我们已在https://claimdb.github.io 发布基准数据集、代码及大语言模型排行榜。

0

相关内容

生成型大型语言模型的自动事实核查：一项综述

生成型大型语言模型的自动事实核查：一项综述

专知会员服务

37+阅读 · 2024年7月6日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

《利用 ChatGPT 实现高效事实核查》

《利用 ChatGPT 实现高效事实核查》

专知会员服务

47+阅读 · 2023年10月25日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

专知会员服务

70+阅读 · 2022年8月20日

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

专知会员服务

51+阅读 · 2022年5月31日

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

专知会员服务

35+阅读 · 2022年4月11日

【AAAI2022】谣言粉碎机！可解释事实检验算法研究

【AAAI2022】谣言粉碎机！可解释事实检验算法研究

专知会员服务

17+阅读 · 2022年1月30日

剑桥大学最新《自动事实核查》综述论文

专知会员服务

15+阅读 · 2021年8月29日

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

专知会员服务

17+阅读 · 2020年4月15日

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

【VLDB2019】虚假新闻（Fake News）检测全面综述教程，156页PPT带你进入这一领域

【VLDB2019】虚假新闻（Fake News）检测全面综述教程，156页PPT带你进入这一领域

专知

10+阅读 · 2019年9月3日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

哈工大SCIR

14+阅读 · 2018年6月28日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

【Wikidata】维基数据详解

【Wikidata】维基数据详解

专知

22+阅读 · 2018年4月26日

自然语言处理（NLP）数据集整理

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

大块板状样品中子核数据宏观基准检验研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

大规模格结构数据管理关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于透明的医源性感染指标测量的基准研究

国家自然科学基金

0+阅读 · 2014年12月31日

LLMStructBench: Benchmarking Large Language Model Structured Data Extraction

Arxiv

0+阅读 · 2月16日

MEVER: Multi-Modal and Explainable Claim Verification with Graph-based Evidence Retrieval

Arxiv

0+阅读 · 2月10日

ClaimPT: A Portuguese Dataset of Annotated Claims in News Articles

Arxiv

0+阅读 · 2月9日

SciClaimEval: Cross-modal Claim Verification in Scientific Papers

Arxiv

0+阅读 · 2月7日

Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers

Arxiv

0+阅读 · 2月5日

ClaimPT: A Portuguese Dataset of Annotated Claims in News Articles

Arxiv

0+阅读 · 1月27日

KG-CRAFT: Knowledge Graph-based Contrastive Reasoning with LLMs for Enhancing Automated Fact-checking

Arxiv

0+阅读 · 1月27日

LLM-Based Adversarial Persuasion Attacks on Fact-Checking Systems

Arxiv

0+阅读 · 1月23日

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

Arxiv

0+阅读 · 1月17日

VeriTaS: The First Dynamic Benchmark for Multimodal Automated Fact-Checking

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

结构化数据

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

10+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

6+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

10+阅读 · 5月29日

相关VIP内容

生成型大型语言模型的自动事实核查：一项综述

生成型大型语言模型的自动事实核查：一项综述

专知会员服务

37+阅读 · 2024年7月6日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

《利用 ChatGPT 实现高效事实核查》

《利用 ChatGPT 实现高效事实核查》

专知会员服务

47+阅读 · 2023年10月25日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

【干货书】大规模文本数据的结构化知识挖掘，200页pdf

专知会员服务

70+阅读 · 2022年8月20日

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

专知会员服务

51+阅读 · 2022年5月31日

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

专知会员服务

35+阅读 · 2022年4月11日

【AAAI2022】谣言粉碎机！可解释事实检验算法研究

【AAAI2022】谣言粉碎机！可解释事实检验算法研究

专知会员服务

17+阅读 · 2022年1月30日

剑桥大学最新《自动事实核查》综述论文

专知会员服务

15+阅读 · 2021年8月29日

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

专知会员服务

17+阅读 · 2020年4月15日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

【VLDB2019】虚假新闻（Fake News）检测全面综述教程，156页PPT带你进入这一领域

【VLDB2019】虚假新闻（Fake News）检测全面综述教程，156页PPT带你进入这一领域

专知

10+阅读 · 2019年9月3日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

哈工大SCIR

14+阅读 · 2018年6月28日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

【Wikidata】维基数据详解

【Wikidata】维基数据详解

专知

22+阅读 · 2018年4月26日

自然语言处理（NLP）数据集整理

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

LLMStructBench: Benchmarking Large Language Model Structured Data Extraction

Arxiv

0+阅读 · 2月16日

MEVER: Multi-Modal and Explainable Claim Verification with Graph-based Evidence Retrieval

Arxiv

0+阅读 · 2月10日

ClaimPT: A Portuguese Dataset of Annotated Claims in News Articles

Arxiv

0+阅读 · 2月9日

SciClaimEval: Cross-modal Claim Verification in Scientific Papers

Arxiv

0+阅读 · 2月7日

Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers

Arxiv

0+阅读 · 2月5日

ClaimPT: A Portuguese Dataset of Annotated Claims in News Articles

Arxiv

0+阅读 · 1月27日

KG-CRAFT: Knowledge Graph-based Contrastive Reasoning with LLMs for Enhancing Automated Fact-checking

Arxiv

0+阅读 · 1月27日

LLM-Based Adversarial Persuasion Attacks on Fact-Checking Systems

Arxiv

0+阅读 · 1月23日

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

Arxiv

0+阅读 · 1月17日

VeriTaS: The First Dynamic Benchmark for Multimodal Automated Fact-Checking

Arxiv

0+阅读 · 1月13日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

大块板状样品中子核数据宏观基准检验研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

大规模格结构数据管理关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于透明的医源性感染指标测量的基准研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员