SciClaimEval: Cross-modal Claim Verification in Scientific Papers - 专知论文

会员服务 ·

0

声明 · 模态 · 论文 · 跨模态 · 数据集 ·

SciClaimEval: Cross-modal Claim Verification in Scientific Papers

翻译：SciClaimEval：科学论文中的跨模态声明验证

Xanh Ho,Yun-Ang Wu,Sunisth Kumar,Tian Cheng Xia,Florian Boudin,Andre Greiner-Petter,Akiko Aizawa

from arxiv, 12 pages; data is available at https://sciclaimeval.github.io/

We present SciClaimEval, a new scientific dataset for the claim verification task. Unlike existing resources, SciClaimEval features authentic claims, including refuted ones, directly extracted from published papers. To create refuted claims, we introduce a novel approach that modifies the supporting evidence (figures and tables), rather than altering the claims or relying on large language models (LLMs) to fabricate contradictions. The dataset provides cross-modal evidence with diverse representations: figures are available as images, while tables are provided in multiple formats, including images, LaTeX source, HTML, and JSON. SciClaimEval contains 1,664 annotated samples from 180 papers across three domains, machine learning, natural language processing, and medicine, validated through expert annotation. We benchmark 11 multimodal foundation models, both open-source and proprietary, across the dataset. Results show that figure-based verification remains particularly challenging for all models, as a substantial performance gap remains between the best system and human baseline.

翻译：我们提出了SciClaimEval，一个用于声明验证任务的新型科学数据集。与现有资源不同，SciClaimEval包含直接从已发表论文中提取的真实声明，其中包括被反驳的声明。为了创建被反驳的声明，我们引入了一种新颖的方法，即修改支持性证据（图表），而不是改变声明本身或依赖大型语言模型来制造矛盾。该数据集提供了具有多样化表示的跨模态证据：图表以图像形式提供，而表格则以多种格式提供，包括图像、LaTeX源代码、HTML和JSON。SciClaimEval包含来自机器学习、自然语言处理和医学三个领域的180篇论文中的1,664个标注样本，并通过专家标注进行了验证。我们在该数据集上对11个开源和专有的多模态基础模型进行了基准测试。结果表明，基于图表的验证对所有模型来说仍然特别具有挑战性，因为最佳系统与人类基线之间仍存在显著的性能差距。

0

相关内容

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

专知会员服务

41+阅读 · 2022年8月28日

【AI+军事】附论文《混合决策的证据跟踪》美国海军信息战中心

【AI+军事】附论文《混合决策的证据跟踪》美国海军信息战中心

专知会员服务

71+阅读 · 2022年4月28日

【AAAI2022】谣言粉碎机！可解释事实检验算法研究

【AAAI2022】谣言粉碎机！可解释事实检验算法研究

专知会员服务

17+阅读 · 2022年1月30日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

跨模态检索研究进展综述

专知会员服务

53+阅读 · 2021年8月13日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

事实抽取与验证研究综述

专知会员服务

23+阅读 · 2021年4月20日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

专知会员服务

63+阅读 · 2020年4月16日

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

专知会员服务

26+阅读 · 2020年2月10日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

牛！中国版Sci-Hub，还能下载中文文献！

牛！中国版Sci-Hub，还能下载中文文献！

材料科学与工程

26+阅读 · 2018年8月26日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于被引科学知识突变的突破性创新动态识别及其形成机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云存储中无证书可证明数据持有方案关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

UniFAR: A Unified Facet-Aware Retrieval Framework for Scientific Documents

Arxiv

0+阅读 · 2月27日

PaperTrail: A Claim-Evidence Interface for Grounding Provenance in LLM-based Scholarly Q&A

Arxiv

0+阅读 · 2月24日

Sci2Pol: Evaluating and Fine-tuning LLMs on Scientific-to-Policy Brief Generation

Sci2Pol: Evaluating and Fine-tuning LLMs on Scientific-to-Policy Brief Generation

Arxiv

0+阅读 · 2月19日

VerifiableFL: Verifiable Claims for Federated Learning using Exclaves

Arxiv

0+阅读 · 2月17日

Beyond Retractions: Forensic Scientometrics Techniques to Identify Research Misconduct, Citation Leakage, and Funding Anomalies

Arxiv

0+阅读 · 2月16日

From Fluent to Verifiable: Claim-Level Auditability for Deep Research Agents

Arxiv

0+阅读 · 2月14日

VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering

Arxiv

0+阅读 · 2月11日

MEVER: Multi-Modal and Explainable Claim Verification with Graph-based Evidence Retrieval

Arxiv

0+阅读 · 2月10日

SciDef: Automating Definition Extraction from Academic Literature with Large Language Models

Arxiv

0+阅读 · 2月5日

SciTextures: Collecting and Connecting Visual Patterns, Models, and Code Across Science and Art

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

0+阅读 · 10分钟前

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

2+阅读 · 50分钟前

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

4+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

5+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

3+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

3+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

5+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

4+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

5+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

13+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

9+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

相关VIP内容

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

【剑桥大学博士论文】《脑科学中的数据驱动表示：基因表达和神经成像领域的建模方法》2022最新160页论文

专知会员服务

41+阅读 · 2022年8月28日

【AI+军事】附论文《混合决策的证据跟踪》美国海军信息战中心

【AI+军事】附论文《混合决策的证据跟踪》美国海军信息战中心

专知会员服务

71+阅读 · 2022年4月28日

【AAAI2022】谣言粉碎机！可解释事实检验算法研究

【AAAI2022】谣言粉碎机！可解释事实检验算法研究

专知会员服务

17+阅读 · 2022年1月30日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

跨模态检索研究进展综述

专知会员服务

53+阅读 · 2021年8月13日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

事实抽取与验证研究综述

专知会员服务

23+阅读 · 2021年4月20日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

专知会员服务

63+阅读 · 2020年4月16日

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

专知会员服务

26+阅读 · 2020年2月10日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

伊朗战争中的电子战

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

相关资讯

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

牛！中国版Sci-Hub，还能下载中文文献！

牛！中国版Sci-Hub，还能下载中文文献！

材料科学与工程

26+阅读 · 2018年8月26日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

UniFAR: A Unified Facet-Aware Retrieval Framework for Scientific Documents

Arxiv

0+阅读 · 2月27日

PaperTrail: A Claim-Evidence Interface for Grounding Provenance in LLM-based Scholarly Q&A

Arxiv

0+阅读 · 2月24日

Sci2Pol: Evaluating and Fine-tuning LLMs on Scientific-to-Policy Brief Generation

Sci2Pol: Evaluating and Fine-tuning LLMs on Scientific-to-Policy Brief Generation

Arxiv

0+阅读 · 2月19日

VerifiableFL: Verifiable Claims for Federated Learning using Exclaves

Arxiv

0+阅读 · 2月17日

Beyond Retractions: Forensic Scientometrics Techniques to Identify Research Misconduct, Citation Leakage, and Funding Anomalies

Arxiv

0+阅读 · 2月16日

From Fluent to Verifiable: Claim-Level Auditability for Deep Research Agents

Arxiv

0+阅读 · 2月14日

VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering

Arxiv

0+阅读 · 2月11日

MEVER: Multi-Modal and Explainable Claim Verification with Graph-based Evidence Retrieval

Arxiv

0+阅读 · 2月10日

SciDef: Automating Definition Extraction from Academic Literature with Large Language Models

Arxiv

0+阅读 · 2月5日

SciTextures: Collecting and Connecting Visual Patterns, Models, and Code Across Science and Art

Arxiv

0+阅读 · 2月2日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于被引科学知识突变的突破性创新动态识别及其形成机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云存储中无证书可证明数据持有方案关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员