We introduce RFC Bench, a benchmark for evaluating large language models on financial misinformation under realistic news. RFC Bench operates at the paragraph level and captures the contextual complexity of financial news where meaning emerges from dispersed cues. The benchmark defines two complementary tasks: reference free misinformation detection and comparison based diagnosis using paired original perturbed inputs. Experiments reveal a consistent pattern: performance is substantially stronger when comparative context is available, while reference free settings expose significant weaknesses, including unstable predictions and elevated invalid outputs. These results indicate that current models struggle to maintain coherent belief states without external grounding. By highlighting this gap, RFC Bench provides a structured testbed for studying reference free reasoning and advancing more reliable financial misinformation detection in real world settings.


翻译:我们提出了RFC Bench,这是一个用于评估大语言模型在现实新闻背景下处理金融虚假信息的基准。该基准在段落级别运行,捕捉金融新闻中意义从分散线索中浮现的上下文复杂性。该基准定义了两个互补任务:无参考虚假信息检测和使用配对原始扰动输入的基于比较的诊断。实验揭示了一致的模式:当可获得比较上下文时,性能显著更强,而无参考设置则暴露了重大弱点,包括预测不稳定和无效输出增多。这些结果表明,当前模型在没有外部基础的情况下难以维持连贯的信念状态。通过凸显这一差距,RFC Bench为研究无参考推理和推进现实场景中更可靠的金融虚假信息检测提供了一个结构化的测试平台。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员