All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection - 专知论文

会员服务 ·

0

无参考 · 金融 · 基准 · 虚假信息检测 · 新闻 ·

All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection

翻译：并非所有闪光之物皆为黄金：无参考反事实金融虚假信息检测基准

Yuechen Jiang,Zhiwei Liu,Yupeng Cao,Yueru He,Ziyang Xu,Chen Xu,Zhiyang Deng,Prayag Tiwari,Xi Chen,Alejandro Lopez-Lira,Jimin Huang,Junichi Tsujii,Sophia Ananiadou

from arxiv, 48 pages; 24 figures

We introduce RFC Bench, a benchmark for evaluating large language models on financial misinformation under realistic news. RFC Bench operates at the paragraph level and captures the contextual complexity of financial news where meaning emerges from dispersed cues. The benchmark defines two complementary tasks: reference free misinformation detection and comparison based diagnosis using paired original perturbed inputs. Experiments reveal a consistent pattern: performance is substantially stronger when comparative context is available, while reference free settings expose significant weaknesses, including unstable predictions and elevated invalid outputs. These results indicate that current models struggle to maintain coherent belief states without external grounding. By highlighting this gap, RFC Bench provides a structured testbed for studying reference free reasoning and advancing more reliable financial misinformation detection in real world settings.

翻译：我们提出了RFC Bench，这是一个用于评估大语言模型在真实新闻场景下处理金融虚假信息的基准。该基准在段落级别运行，能够捕捉金融新闻中意义由分散线索产生的上下文复杂性。基准定义了两个互补任务：无参考虚假信息检测以及基于配对原始-扰动输入的比较诊断。实验揭示了一致的模式：当存在比较性上下文时，模型性能显著更强，而无参考设置则暴露出重大缺陷，包括预测不稳定和无效输出增多。这些结果表明，当前模型在没有外部锚定的情况下难以维持连贯的信念状态。通过凸显这一差距，RFC Bench为研究无参考推理和推进现实场景中更可靠的金融虚假信息检测提供了一个结构化的测试平台。

0

相关内容

无参考

虚假信息检测综述

虚假信息检测综述

专知会员服务

8+阅读 · 2025年7月9日

多模态金融基础模型（MFFMs）：进展、前景与挑战

多模态金融基础模型（MFFMs）：进展、前景与挑战

专知会员服务

18+阅读 · 2025年6月8日

错误信息检测《对错误信息、宣传和谬论的综合注释进行稳健且可解释的识别》美军2023最新88页报告

错误信息检测《对错误信息、宣传和谬论的综合注释进行稳健且可解释的识别》美军2023最新88页报告

专知会员服务

30+阅读 · 2023年9月14日

【干货书】深度伪造 (DeepFakes):创造，检测和影响，167页pdf

【干货书】深度伪造 (DeepFakes):创造，检测和影响，167页pdf

专知会员服务

69+阅读 · 2022年8月1日

《金融大数据术语》行业标准，24页pdf

《金融大数据术语》行业标准，24页pdf

专知会员服务

55+阅读 · 2022年2月28日

ACL2021 | 知识对比：基于外部知识的图神经虚假新闻检测

专知会员服务

34+阅读 · 2021年9月14日

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

专知会员服务

20+阅读 · 2020年11月7日

CIKM2020最佳论文出炉！NUS《图表示假新闻检测》摘获！

CIKM2020最佳论文出炉！NUS《图表示假新闻检测》摘获！

专知会员服务

26+阅读 · 2020年10月24日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

【KDD2019|讲座推荐】从混乱中淘金：稀有类别的探索，展示，表示和解释：Gold Panning from the Mess: Rare Category Exploration, Exposition, Representation and Interpretation

【KDD2019|讲座推荐】从混乱中淘金：稀有类别的探索，展示，表示和解释：Gold Panning from the Mess: Rare Category Exploration, Exposition, Representation and Interpretation

专知会员服务

11+阅读 · 2019年12月14日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

无监督分词和句法分析！原来BERT还可以这样用

无监督分词和句法分析！原来BERT还可以这样用

PaperWeekly

12+阅读 · 2020年6月17日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

智源-计算所虚假新闻检测大赛 | 探秘假新闻中的视觉信息

智源-计算所虚假新闻检测大赛 | 探秘假新闻中的视觉信息

PaperWeekly

18+阅读 · 2019年9月24日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

实战分享之专业领域词汇无监督挖掘

实战分享之专业领域词汇无监督挖掘

PaperWeekly

15+阅读 · 2019年4月16日

热点！虚假新闻检测综述

热点！虚假新闻检测综述

专知

111+阅读 · 2019年2月26日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

模糊情况下的最优消费与投资

国家自然科学基金

3+阅读 · 2015年12月31日

基于反射理论的信息驱动金融市场模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机波动率模型下金融衍生产品定价中的条件蒙特卡罗加速方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

诊断金属表面微喷微层裂状态的新型光电探针测试技术

国家自然科学基金

0+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

“脱实向虚”背景下金融服务实体经济的非均衡效应研究

国家自然科学基金

0+阅读 · 2014年12月31日

金融大数据随机建模中若干非马氏问题及其应用的研究

国家自然科学基金

1+阅读 · 2014年12月31日

非对称随机波动建模及其在金融风险管理中的应用研究

国家自然科学基金

4+阅读 · 2014年12月31日

水溶液中多种痕量重金属元素的高灵敏度激光诱导击穿光谱

国家自然科学基金

0+阅读 · 2014年12月31日

CoT is Not the Chain of Truth: An Empirical Internal Analysis of Reasoning LLMs for Fake News Generation

Arxiv

0+阅读 · 2月5日

Once Correct, Still Wrong: Counterfactual Hallucination in Multilingual Vision-Language Models

Arxiv

0+阅读 · 2月5日

Prediction Laundering: The Illusion of Neutrality, Transparency, and Governance in Polymarket

Arxiv

0+阅读 · 2月5日

CoT is Not the Chain of Truth: An Empirical Internal Analysis of Reasoning LLMs for Fake News Generation

Arxiv

0+阅读 · 2月4日

FinMTM: A Multi-Turn Multimodal Benchmark for Financial Reasoning and Agent Evaluation

Arxiv

0+阅读 · 2月3日

VeriTaS: The First Dynamic Benchmark for Multimodal Automated Fact-Checking

Arxiv

0+阅读 · 1月13日

All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection

Arxiv

0+阅读 · 1月7日

FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information

Arxiv

0+阅读 · 1月6日

It's Not All Black and White: Degree of Truthfulness for Risk-Avoiding Agents

Arxiv

0+阅读 · 1月6日

FinMMDocR: Benchmarking Financial Multimodal Reasoning with Scenario Awareness, Document Understanding, and Multi-Step Computation

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

虚假信息检测

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

3+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

5+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

4+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

虚假信息检测综述

虚假信息检测综述

专知会员服务

8+阅读 · 2025年7月9日

多模态金融基础模型（MFFMs）：进展、前景与挑战

多模态金融基础模型（MFFMs）：进展、前景与挑战

专知会员服务

18+阅读 · 2025年6月8日

错误信息检测《对错误信息、宣传和谬论的综合注释进行稳健且可解释的识别》美军2023最新88页报告

错误信息检测《对错误信息、宣传和谬论的综合注释进行稳健且可解释的识别》美军2023最新88页报告

专知会员服务

30+阅读 · 2023年9月14日

【干货书】深度伪造 (DeepFakes):创造，检测和影响，167页pdf

【干货书】深度伪造 (DeepFakes):创造，检测和影响，167页pdf

专知会员服务

69+阅读 · 2022年8月1日

《金融大数据术语》行业标准，24页pdf

《金融大数据术语》行业标准，24页pdf

专知会员服务

55+阅读 · 2022年2月28日

ACL2021 | 知识对比：基于外部知识的图神经虚假新闻检测

专知会员服务

34+阅读 · 2021年9月14日

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

专知会员服务

20+阅读 · 2020年11月7日

CIKM2020最佳论文出炉！NUS《图表示假新闻检测》摘获！

CIKM2020最佳论文出炉！NUS《图表示假新闻检测》摘获！

专知会员服务

26+阅读 · 2020年10月24日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

【KDD2019|讲座推荐】从混乱中淘金：稀有类别的探索，展示，表示和解释：Gold Panning from the Mess: Rare Category Exploration, Exposition, Representation and Interpretation

【KDD2019|讲座推荐】从混乱中淘金：稀有类别的探索，展示，表示和解释：Gold Panning from the Mess: Rare Category Exploration, Exposition, Representation and Interpretation

专知会员服务

11+阅读 · 2019年12月14日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

无监督分词和句法分析！原来BERT还可以这样用

无监督分词和句法分析！原来BERT还可以这样用

PaperWeekly

12+阅读 · 2020年6月17日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

智源-计算所虚假新闻检测大赛 | 探秘假新闻中的视觉信息

智源-计算所虚假新闻检测大赛 | 探秘假新闻中的视觉信息

PaperWeekly

18+阅读 · 2019年9月24日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

实战分享之专业领域词汇无监督挖掘

实战分享之专业领域词汇无监督挖掘

PaperWeekly

15+阅读 · 2019年4月16日

热点！虚假新闻检测综述

热点！虚假新闻检测综述

专知

111+阅读 · 2019年2月26日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

相关论文

CoT is Not the Chain of Truth: An Empirical Internal Analysis of Reasoning LLMs for Fake News Generation

Arxiv

0+阅读 · 2月5日

Once Correct, Still Wrong: Counterfactual Hallucination in Multilingual Vision-Language Models

Arxiv

0+阅读 · 2月5日

Prediction Laundering: The Illusion of Neutrality, Transparency, and Governance in Polymarket

Arxiv

0+阅读 · 2月5日

CoT is Not the Chain of Truth: An Empirical Internal Analysis of Reasoning LLMs for Fake News Generation

Arxiv

0+阅读 · 2月4日

FinMTM: A Multi-Turn Multimodal Benchmark for Financial Reasoning and Agent Evaluation

Arxiv

0+阅读 · 2月3日

VeriTaS: The First Dynamic Benchmark for Multimodal Automated Fact-Checking

Arxiv

0+阅读 · 1月13日

All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection

Arxiv

0+阅读 · 1月7日

FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information

Arxiv

0+阅读 · 1月6日

It's Not All Black and White: Degree of Truthfulness for Risk-Avoiding Agents

Arxiv

0+阅读 · 1月6日

FinMMDocR: Benchmarking Financial Multimodal Reasoning with Scenario Awareness, Document Understanding, and Multi-Step Computation

Arxiv

0+阅读 · 2025年12月31日

相关基金

模糊情况下的最优消费与投资

国家自然科学基金

3+阅读 · 2015年12月31日

基于反射理论的信息驱动金融市场模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机波动率模型下金融衍生产品定价中的条件蒙特卡罗加速方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

诊断金属表面微喷微层裂状态的新型光电探针测试技术

国家自然科学基金

0+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

“脱实向虚”背景下金融服务实体经济的非均衡效应研究

国家自然科学基金

0+阅读 · 2014年12月31日

金融大数据随机建模中若干非马氏问题及其应用的研究

国家自然科学基金

1+阅读 · 2014年12月31日

非对称随机波动建模及其在金融风险管理中的应用研究

国家自然科学基金

4+阅读 · 2014年12月31日

水溶液中多种痕量重金属元素的高灵敏度激光诱导击穿光谱

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员