We introduce RFC Bench, a benchmark for evaluating large language models on financial misinformation under realistic news. RFC Bench operates at the paragraph level and captures the contextual complexity of financial news where meaning emerges from dispersed cues. The benchmark defines two complementary tasks: reference free misinformation detection and comparison based diagnosis using paired original perturbed inputs. Experiments reveal a consistent pattern: performance is substantially stronger when comparative context is available, while reference free settings expose significant weaknesses, including unstable predictions and elevated invalid outputs. These results indicate that current models struggle to maintain coherent belief states without external grounding. By highlighting this gap, RFC Bench provides a structured testbed for studying reference free reasoning and advancing more reliable financial misinformation detection in real world settings.


翻译:我们提出了RFC Bench,这是一个用于评估大语言模型在现实新闻背景下金融虚假信息检测能力的基准。RFC Bench在段落级别运行,能够捕捉金融新闻中意义从分散线索中产生的上下文复杂性。该基准定义了两个互补任务:无参考虚假信息检测和使用配对原始-扰动输入进行基于比较的诊断。实验揭示了一致的模式:当可获得比较性上下文时,模型性能显著更强,而无参考设置则暴露了显著的弱点,包括不稳定的预测和增多的无效输出。这些结果表明,当前模型在没有外部基础的情况下难以维持连贯的信念状态。通过凸显这一差距,RFC Bench为研究无参考推理和推进现实场景中更可靠的金融虚假信息检测提供了一个结构化的测试平台。

0
下载
关闭预览

相关内容

多模态金融基础模型(MFFMs):进展、前景与挑战
专知会员服务
18+阅读 · 2025年6月8日
《金融大数据术语》行业标准,24页pdf
专知会员服务
55+阅读 · 2022年2月28日
专知会员服务
34+阅读 · 2021年9月14日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
CIKM2020最佳论文出炉!NUS《图表示假新闻检测》摘获!
专知会员服务
26+阅读 · 2020年10月24日
无监督分词和句法分析!原来BERT还可以这样用
PaperWeekly
12+阅读 · 2020年6月17日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
实战分享之专业领域词汇无监督挖掘
PaperWeekly
15+阅读 · 2019年4月16日
Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具
黑白之道
17+阅读 · 2019年2月27日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
1+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员