FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information - 专知论文

会员服务 ·

0

Taxonomy · INFORMS · 评论员 · MoDELS · 全 ·

FinTagging: Benchmarking LLMs for Extracting and Structuring Financial Information

翻译：FinTagging：面向金融信息提取与结构化的大语言模型基准测试

Yan Wang,Lingfei Qian,Xueqing Peng,Yang Ren,Keyi Wang,Yi Han,Dongji Feng,Fengran Mo,Shengyuan Lin,Qinchuan Zhang,Kaiwen He,Chenri Luo,Jianxing Chen,Junwei Wu,Chen Xu,Ziyang Xu,Jimin Huang,Guojun Xiong,Xiao-Yang Liu,Qianqian Xie,Jian-Yun Nie

Accurate interpretation of numerical data in financial reports is critical for markets and regulators. Although XBRL (eXtensible Business Reporting Language) provides a standard for tagging financial figures, mapping thousands of facts to over 10k US GAAP concepts remains costly and error prone. Existing benchmarks oversimplify this task as flat, single step classification over small subsets of concepts, ignoring the hierarchical semantics of the taxonomy and the structured nature of financial documents. Consequently, these benchmarks fail to evaluate Large Language Models (LLMs) under realistic reporting conditions. To bridge this gap, we introduce FinTagging, the first comprehensive benchmark for structure aware and full scope XBRL tagging. We decompose the complex tagging process into two subtasks: (1) FinNI (Financial Numeric Identification), which extracts entities and types from heterogeneous contexts including text and tables; and (2) FinCL (Financial Concept Linking), which maps extracted entities to the full US GAAP taxonomy. This two stage formulation enables a fair assessment of LLMs' capabilities in numerical reasoning and taxonomy alignment. Evaluating diverse LLMs in zero shot settings reveals that while models generalize well in extraction, they struggle significantly with fine grained concept linking, highlighting critical limitations in domain specific structure aware reasoning.

翻译：财务报告中数值数据的准确解读对市场及监管机构至关重要。尽管XBRL（可扩展商业报告语言）为财务数据的标记提供了标准，但将数千个事实映射至超过一万个美国通用会计准则概念的过程仍成本高昂且易出错。现有基准测试将此任务简化为对少数概念子集的扁平化单步分类，忽略了分类体系的层级语义及财务文档的结构化特性，因此无法在真实报告场景中评估大语言模型（LLM）的性能。为填补这一空白，我们提出FinTagging——首个面向结构感知与全范围XBRL标记的综合基准。我们将复杂标记流程分解为两个子任务：(1) 财务数值识别（FinNI），从文本与表格等异构上下文中提取实体及其类型；(2) 财务概念链接（FinCL），将提取的实体映射至完整美国通用会计准则分类体系。这种两阶段设计使得对LLM在数值推理与分类体系对齐能力上的公平评估成为可能。对多种LLM的零样本评估显示，尽管模型在提取任务中表现良好，但在细粒度概念链接上仍存在显著困难，揭示了其在领域特定结构感知推理方面的关键局限性。

0

相关内容

Taxonomy

分类学是分类的实践和科学。Wikipedia类别说明了一种分类法，可以通过自动方式提取Wikipedia类别的完整分类法。截至2009年，已经证明，可以使用人工构建的分类法（例如像WordNet这样的计算词典的分类法）来改进和重组Wikipedia类别分类法。从广义上讲，分类法还适用于除父子层次结构以外的关系方案，例如网络结构。然后分类法可能包括有多父母的单身孩子，例如，“汽车”可能与父母双方一起出现“车辆”和“钢结构”；但是对某些人而言，这仅意味着“汽车”是几种不同分类法的一部分。分类法也可能只是将事物组织成组，或者是按字母顺序排列的列表；但是在这里，术语词汇更合适。在知识管理中的当前用法中，分类法被认为比本体论窄，因为本体论应用了各种各样的关系类型。在数学上，分层分类法是给定对象集的分类树结构。该结构的顶部是适用于所有对象的单个分类，即根节点。此根下的节点是更具体的分类，适用于总分类对象集的子集。推理的进展从一般到更具体。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

专知会员服务

20+阅读 · 2025年11月11日

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

大模型如何用于金融？普林斯顿《大规模语言模型在金融应用中的综述：进展、前景与挑战》

大模型如何用于金融？普林斯顿《大规模语言模型在金融应用中的综述：进展、前景与挑战》

专知会员服务

37+阅读 · 2024年6月20日

金融领域大型语言模型综述（FinLLMs）

金融领域大型语言模型综述（FinLLMs）

专知会员服务

71+阅读 · 2024年2月6日

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

专知会员服务

99+阅读 · 2023年12月6日

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知会员服务

42+阅读 · 2022年9月9日

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

专知会员服务

51+阅读 · 2022年5月31日

《金融大数据术语》行业标准，24页pdf

《金融大数据术语》行业标准，24页pdf

专知会员服务

55+阅读 · 2022年2月28日

金融大数据平台建设实践，深圳证券信息有限公司数据中心张俊总监，第八届全国社会媒体处理大会SMP2019

金融大数据平台建设实践，深圳证券信息有限公司数据中心张俊总监，第八届全国社会媒体处理大会SMP2019

专知会员服务

38+阅读 · 2019年10月24日

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知

18+阅读 · 2022年9月9日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

量化金融强化学习论文集合

量化金融强化学习论文集合

专知

14+阅读 · 2019年12月18日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

上证信息－文因互联（联合）发布：知识提取在上市公司信息披露中的应用

上证信息－文因互联（联合）发布：知识提取在上市公司信息披露中的应用

文因互联

27+阅读 · 2018年9月7日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

金融科技&大数据产品推荐：达观数据—金融平台产品及资讯个性化推荐引擎

金融科技&大数据产品推荐：达观数据—金融平台产品及资讯个性化推荐引擎

数据猿

10+阅读 · 2017年9月19日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反射理论的信息驱动金融市场模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

前瞻性非财务信息披露质量研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

融合多源大数据的互联网金融个性化价值发现与风险评测

国家自然科学基金

2+阅读 · 2015年12月31日

基于大数据的消费金融信用风险计量与管理

国家自然科学基金

3+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

高维度、非线性模型下的金融资产定价和风险定量计算

国家自然科学基金

1+阅读 · 2014年12月31日

LEDGER: A Long-Context Benchmark of Corporate Annual Reports for Grounded Financial Retrieval and Extraction

Arxiv

0+阅读 · 6月11日

Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings

Arxiv

0+阅读 · 6月10日

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Arxiv

0+阅读 · 6月10日

ChartFI: Benchmarking Faithfulness and Insightfulness of Chart Descriptions from Multimodal Large Language Models

Arxiv

0+阅读 · 6月10日

GraphInfer-Bench: Benchmarking LLM's Inference Capability on Graphs

Arxiv

0+阅读 · 6月10日

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Arxiv

0+阅读 · 6月9日

AuditFraudBench: Benchmarking Audit Judgment in Detecting Fraudulent Misstatements

Arxiv

0+阅读 · 6月6日

FinDocMRE: A Benchmark for Document-Level Financial Multimodal Reasoning Evaluation

Arxiv

0+阅读 · 5月18日

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

Arxiv

0+阅读 · 5月17日

LitBench: A Graph-Centric Large Language Model Benchmarking Tool For Literature Tasks

Arxiv

0+阅读 · 2月10日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

8+阅读 · 7月31日

相关VIP内容

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

【AAAI2026】FinRpt：面向证券研究报告生成的数据集、评测体系与基于大语言模型的多智能体框架

专知会员服务

20+阅读 · 2025年11月11日

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

大模型如何用于金融？普林斯顿《大规模语言模型在金融应用中的综述：进展、前景与挑战》

大模型如何用于金融？普林斯顿《大规模语言模型在金融应用中的综述：进展、前景与挑战》

专知会员服务

37+阅读 · 2024年6月20日

金融领域大型语言模型综述（FinLLMs）

金融领域大型语言模型综述（FinLLMs）

专知会员服务

71+阅读 · 2024年2月6日

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

专知会员服务

99+阅读 · 2023年12月6日

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知会员服务

42+阅读 · 2022年9月9日

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

专知会员服务

51+阅读 · 2022年5月31日

《金融大数据术语》行业标准，24页pdf

《金融大数据术语》行业标准，24页pdf

专知会员服务

55+阅读 · 2022年2月28日

金融大数据平台建设实践，深圳证券信息有限公司数据中心张俊总监，第八届全国社会媒体处理大会SMP2019

金融大数据平台建设实践，深圳证券信息有限公司数据中心张俊总监，第八届全国社会媒体处理大会SMP2019

专知会员服务

38+阅读 · 2019年10月24日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知

18+阅读 · 2022年9月9日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

量化金融强化学习论文集合

量化金融强化学习论文集合

专知

14+阅读 · 2019年12月18日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

上证信息－文因互联（联合）发布：知识提取在上市公司信息披露中的应用

上证信息－文因互联（联合）发布：知识提取在上市公司信息披露中的应用

文因互联

27+阅读 · 2018年9月7日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

金融科技&大数据产品推荐：达观数据—金融平台产品及资讯个性化推荐引擎

金融科技&大数据产品推荐：达观数据—金融平台产品及资讯个性化推荐引擎

数据猿

10+阅读 · 2017年9月19日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

相关论文

LEDGER: A Long-Context Benchmark of Corporate Annual Reports for Grounded Financial Retrieval and Extraction

Arxiv

0+阅读 · 6月11日

Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings

Arxiv

0+阅读 · 6月10日

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Arxiv

0+阅读 · 6月10日

ChartFI: Benchmarking Faithfulness and Insightfulness of Chart Descriptions from Multimodal Large Language Models

Arxiv

0+阅读 · 6月10日

GraphInfer-Bench: Benchmarking LLM's Inference Capability on Graphs

Arxiv

0+阅读 · 6月10日

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Arxiv

0+阅读 · 6月9日

AuditFraudBench: Benchmarking Audit Judgment in Detecting Fraudulent Misstatements

Arxiv

0+阅读 · 6月6日

FinDocMRE: A Benchmark for Document-Level Financial Multimodal Reasoning Evaluation

Arxiv

0+阅读 · 5月18日

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

Arxiv

0+阅读 · 5月17日

LitBench: A Graph-Centric Large Language Model Benchmarking Tool For Literature Tasks

Arxiv

0+阅读 · 2月10日

相关基金

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反射理论的信息驱动金融市场模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

前瞻性非财务信息披露质量研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

融合多源大数据的互联网金融个性化价值发现与风险评测

国家自然科学基金

2+阅读 · 2015年12月31日

基于大数据的消费金融信用风险计量与管理

国家自然科学基金

3+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

高维度、非线性模型下的金融资产定价和风险定量计算

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员