Going beyond simple text processing, financial auditing requires detecting semantic, structural, and numerical inconsistencies across large-scale disclosures. As financial reports are filed in XBRL, a structured XML format governed by accounting standards, auditing becomes a structured information extraction and reasoning problem involving concept alignment, taxonomy-defined relations, and cross-document consistency. Although large language models (LLMs) show promise on isolated financial tasks, their capability in professional-grade auditing remains unclear. We introduce FinAuditing, a taxonomy-aligned, structure-aware benchmark built from real XBRL filings. It contains 1,102 annotated instances averaging over 33k tokens and defines three tasks: Financial Semantic Matching (FinSM), Financial Relationship Extraction (FinRE), and Financial Mathematical Reasoning (FinMR). Evaluations of 13 state-of-the-art LLMs reveal substantial gaps in concept retrieval, taxonomy-aware relation modeling, and consistent cross-document reasoning. These findings highlight the need for realistic, structure-aware benchmarks. We release the evaluation code at https://github.com/The-FinAI/FinAuditing and the dataset at https://huggingface.co/collections/TheFinAI/finauditing. The task currently serves as the official benchmark of an ongoing public evaluation contest at https://open-finance-lab.github.io/SecureFinAI_Contest_2026/.


翻译:超越简单的文本处理,金融审计需要检测大规模披露文件中的语义、结构和数值不一致性。由于财务报告以XBRL(一种受会计准则约束的结构化XML格式)提交,审计便成为一个涉及概念对齐、分类法定义的关系以及跨文档一致性的结构化信息提取与推理问题。尽管大语言模型在孤立的金融任务上展现出潜力,但其在专业级审计中的能力仍不明确。我们提出了FinAuditing,一个基于真实XBRL文件构建的、与分类法对齐且具备结构感知能力的基准。它包含1,102个标注实例,平均超过33k个词元,并定义了三个任务:金融语义匹配、金融关系抽取和金融数学推理。对13个最先进的大语言模型的评估揭示了它们在概念检索、分类法感知的关系建模以及一致的跨文档推理方面存在显著差距。这些发现凸显了对现实、结构感知基准的需求。我们在https://github.com/The-FinAI/FinAuditing 发布了评估代码,并在https://huggingface.co/collections/TheFinAI/finauditing 发布了数据集。该任务目前作为一项正在进行的公开评估竞赛的官方基准,详情请访问https://open-finance-lab.github.io/SecureFinAI_Contest_2026/。

0
下载
关闭预览

相关内容

在社会经济生活,银行、证券或保险业者从市场主体募集资金,并投资给其它市场主体的经济活动。
大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
金融领域大型语言模型综述(FinLLMs)
专知会员服务
71+阅读 · 2024年2月6日
《金融大数据术语》行业标准,24页pdf
专知会员服务
55+阅读 · 2022年2月28日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员