Accurate interpretation of numerical data in financial reports is critical for markets and regulators. Although XBRL (eXtensible Business Reporting Language) provides a standard for tagging financial figures, mapping thousands of facts to over 10k US GAAP concepts remains costly and error prone. Existing benchmarks oversimplify this task as flat, single step classification over small subsets of concepts, ignoring the hierarchical semantics of the taxonomy and the structured nature of financial documents. Consequently, these benchmarks fail to evaluate Large Language Models (LLMs) under realistic reporting conditions. To bridge this gap, we introduce FinTagging, the first comprehensive benchmark for structure aware and full scope XBRL tagging. We decompose the complex tagging process into two subtasks: (1) FinNI (Financial Numeric Identification), which extracts entities and types from heterogeneous contexts including text and tables; and (2) FinCL (Financial Concept Linking), which maps extracted entities to the full US GAAP taxonomy. This two stage formulation enables a fair assessment of LLMs' capabilities in numerical reasoning and taxonomy alignment. Evaluating diverse LLMs in zero shot settings reveals that while models generalize well in extraction, they struggle significantly with fine grained concept linking, highlighting critical limitations in domain specific structure aware reasoning.


翻译:准确解读财务报告中的数值数据对市场和监管机构至关重要。尽管XBRL(可扩展商业报告语言)为金融数据标记提供了标准,但将数千条事实映射至超过一万个美国通用会计准则概念仍成本高昂且易出错。现有基准将该任务过度简化为对小型概念子集的扁平化单步分类,忽视了分类法的层次语义与财务文档的结构化特性。因此,这些基准无法在真实报告场景下有效评估大语言模型。为填补这一空白,我们提出首个面向结构感知与全范围XBRL标记的综合基准——FinTagging。我们将复杂标记过程分解为两个子任务:(1) FinNI(金融数值识别),从文本与表格等异构上下文中提取实体及其类型;(2) FinCL(金融概念链接),将提取的实体映射至完整的美国通用会计准则分类法。这种两阶段建模框架能够公正评估大语言模型在数值推理与分类法对齐方面的能力。在零样本设置下对多种大语言模型的评估表明:虽然模型在信息提取任务中表现良好,但在细粒度概念链接方面存在显著困难,这揭示了领域特定结构感知推理能力的核心局限。

0
下载
关闭预览

相关内容

大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
金融领域大型语言模型综述(FinLLMs)
专知会员服务
71+阅读 · 2024年2月6日
《金融大数据术语》行业标准,24页pdf
专知会员服务
55+阅读 · 2022年2月28日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
量化金融强化学习论文集合
专知
14+阅读 · 2019年12月18日
深度学习在金融文本情感分类中的应用
AI前线
36+阅读 · 2019年1月12日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员