With the increasing deployment of Large Language Models (LLMs) in the finance domain, LLMs are increasingly expected to parse complex regulatory disclosures. However, existing benchmarks often focus on isolated details, failing to reflect the complexity of professional analysis that requires synthesizing information across multiple documents, reporting periods, and corporate entities. Furthermore, these benchmarks do not disentangle whether errors arise from retrieval failures, generation inaccuracies, domain-specific reasoning mistakes, or misinterpretation of the query or context, making it difficult to precisely diagnose performance bottlenecks. To bridge these gaps, we introduce Fin-RATE, a benchmark built on U.S. Securities and Exchange Commission (SEC) filings and mirroring financial analyst workflows through three pathways: detail-oriented reasoning within individual disclosures, cross-entity comparison under shared topics, and longitudinal tracking of the same firm across reporting periods. We benchmark 17 leading LLMs, spanning open-source, closed-source, and finance-specialized models, under both ground-truth context and retrieval-augmented settings. Results show substantial performance degradation, with accuracy dropping by 18.60\% and 14.35\% as tasks shift from single-document reasoning to longitudinal and cross-entity analysis. This degradation is driven by increased comparison hallucinations, temporal and entity mismatches, and is further reflected in declines in reasoning quality and factual consistency--limitations that existing benchmarks have yet to formally categorize or quantify.


翻译:随着大型语言模型(LLM)在金融领域的部署日益增多,人们越来越期望LLM能够解析复杂的监管披露文件。然而,现有基准测试通常侧重于孤立的细节,未能反映需要综合多个文档、报告周期和公司实体信息的专业分析的复杂性。此外,这些基准测试无法区分错误是源于检索失败、生成不准确、特定领域推理错误,还是对查询或上下文的误解,从而难以精确诊断性能瓶颈。为弥补这些不足,我们提出了Fin-RATE,这是一个基于美国证券交易委员会(SEC)文件构建的基准测试,它通过三种路径模拟金融分析师的工作流程:针对单个披露文件的细节导向推理、共享主题下的跨实体比较,以及同一公司在不同报告周期内的纵向追踪。我们在真实上下文和检索增强两种设置下,对17个领先的LLM(涵盖开源、闭源及金融专用模型)进行了基准测试。结果显示,随着任务从单文档推理转向纵向和跨实体分析,模型性能显著下降,准确率分别降低了18.60%和14.35%。这种下降主要由增加的比较幻觉、时间和实体不匹配所驱动,并进一步体现在推理质量和事实一致性指标的下降上——这些局限性是现有基准测试尚未正式分类或量化的。

0
下载
关闭预览

相关内容

迈向LLM时代的可泛化评估:超越基准的综述
专知会员服务
22+阅读 · 2025年4月29日
大型语言模型(LLMs)革新金融:应用与洞察概览
专知会员服务
40+阅读 · 2024年3月22日
金融领域大型语言模型综述(FinLLMs)
专知会员服务
71+阅读 · 2024年2月6日
【ICLR2024】能检测到LLM产生的错误信息吗?
专知会员服务
25+阅读 · 2024年1月23日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
使用LSTM模型预测股价基于Keras
量化投资与机器学习
35+阅读 · 2018年11月17日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员