Finance reporting is a natural proving ground for large language models, and the very-long-context capabilities of recent models across all sizes make rigorous evaluation in this domain an increasingly pressing need. Yet most public financial resources reduce the task to plain-text SEC 10-K filings paired with a handful of question-answer items. We release LEDGER (Long-context Evaluation of Documents for Grounded Extraction and Retrieval), a corpus of 4,999 digitized corporate annual reports - full documents with figures, tables, and narrative, not just regulatory filings. Each report is labeled with 31 consolidated financial KPIs to be extracted and linked to the market's reaction at the earnings date. From this data we derive three evaluation benchmarks spanning the difficulty spectrum: a pure page-level KPI retrieval task with TREC-style relevance judgments over 118,048 questions in natural language, a conversational "needle-in-a-haystack" single-value lookup, and a full KPI extraction task, both from long, numerically dense reports. We additionally provide human OCR-quality annotations with inter-annotator agreement and the complete extraction, validation, and scoring toolchain. We further demonstrate the dataset's research utility with a case study linking CEO-letter rhetoric to post-publication market impact.


翻译:金融报告是大语言模型的天然试验场,近期各规模模型展现出的超长上下文能力,使得在该领域进行严谨评估的需求日益迫切。然而,多数公开金融资源仅将任务简化为纯文本的SEC 10-K报告及少量问答条目。我们提出LEDGER(面向文档的长上下文奠基提取与检索评估),这是一个包含4,999份数字化企业年报的语料库——这些完整文档包含图表、表格和叙述性内容,而不仅是监管文件。每份报告标注了31个需提取的合并财务关键绩效指标(KPI),并与财报发布日的市场反应建立关联。基于该数据,我们构建了覆盖不同难度层次的三个评估基准:纯页面级KPI检索任务(含118,048个自然语言问题,采用TREC风格相关性判定)、对话式“大海捞针”单值查找任务,以及完整的KPI抽取任务(均基于长篇幅、高数值密度的文档)。我们还提供具有人工OCR质量标注和标注者间一致性验证的数据集,以及完整的抽取、验证与评分工具链。最后,通过将CEO信函修辞与发布后市场影响相关联的案例研究,我们进一步展示了该数据集的研究实用性。

0
下载
关闭预览

相关内容

在社会经济生活,银行、证券或保险业者从市场主体募集资金,并投资给其它市场主体的经济活动。
金融业数字化转型发展报告(2020-2021)附下载
专知会员服务
49+阅读 · 2022年4月4日
《金融大数据术语》行业标准,24页pdf
专知会员服务
55+阅读 · 2022年2月28日
专知会员服务
146+阅读 · 2020年8月21日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
艾瑞咨询2019中国智慧城市发展报告,附PPT下载
智能交通技术
25+阅读 · 2019年4月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
金融业数字化转型发展报告(2020-2021)附下载
专知会员服务
49+阅读 · 2022年4月4日
《金融大数据术语》行业标准,24页pdf
专知会员服务
55+阅读 · 2022年2月28日
专知会员服务
146+阅读 · 2020年8月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员