Real-world financial filings report critical information about an entity's investment holdings, essential for assessing that entity's risk, profitability, and relationship profile. Yet, these details are often buried in messy, multi-page, fragmented tables that are difficult to parse, hindering downstream QA and data normalization. Specifically, 99.4% of the tables in our financial table dataset lack bounding boxes, with the largest table spanning 44 pages. To address this, we present TASER (Table Agents for Schema-guided Extraction and Recommendation), a continuously learning, agentic table extraction system that converts highly unstructured, multi-page, heterogeneous tables into normalized, schema-conforming outputs. Guided by an initial portfolio schema, TASER executes table detection, classification, extraction, and recommendations in a single pipeline. Our Recommender Agent reviews unmatched outputs and proposes schema revisions, enabling TASER to outperform vision-based table detection models such as Table Transformer by 10.1%. Within this continuous learning process, larger batch sizes yield a 104.3% increase in useful schema recommendations and a 9.8% increase in total extractions. To train TASER, we manually labeled 22,584 pages and 3,213 tables covering $731.7 billion in holdings, culminating in TASERTab to facilitate research on real-world financial tables and structured outputs. Our results highlight the promise of continuously learning agents for robust extractions from complex tabular data.


翻译:现实世界中的财务申报文件记录了实体投资持仓的关键信息,这些信息对于评估实体的风险、盈利能力和关系画像至关重要。然而,这些细节通常隐藏在难以解析、杂乱、多页且结构零散的表格中,阻碍了下游的质量保证与数据规范化工作。具体而言,在我们的财务表格数据集中,99.4%的表格缺乏边界框标注,其中最大的表格横跨44页。为解决这一问题,我们提出了TASER(面向模式引导抽取与推荐的表格智能体),这是一个持续学习的智能表格抽取系统,能够将高度非结构化、多页、异构的表格转换为规范化且符合模式约束的输出结果。在初始投资组合模式的引导下,TASER在一个统一流程中执行表格检测、分类、抽取与推荐。我们的推荐智能体审阅未匹配的输出并提出模式修订建议,使得TASER在表格检测任务上比基于视觉的模型(如Table Transformer)性能提升10.1%。在此持续学习过程中,更大的批处理规模使有效模式推荐数量增加104.3%,总抽取量提升9.8%。为训练TASER,我们手工标注了22,584页共3,213张表格,涵盖7,317亿美元持仓数据,最终构建了TASERTab数据集,以促进对真实世界财务表格及结构化输出的研究。我们的结果凸显了持续学习智能体在从复杂表格数据中进行鲁棒抽取方面的潜力。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
表格识别技术研究进展
专知会员服务
38+阅读 · 2022年7月4日
详解 | 推荐系统的工程实现
AI100
42+阅读 · 2019年3月15日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
乌克兰前线的五项创新
专知会员服务
0+阅读 · 22分钟前
 军事通信系统与设备的技术演进综述
专知会员服务
0+阅读 · 37分钟前
《北约标准:医疗评估手册》174页
专知会员服务
0+阅读 · 45分钟前
《提升生成模型的安全性与保障》博士论文
专知会员服务
0+阅读 · 49分钟前
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
8+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
2+阅读 · 4月19日
全球高超音速武器最新发展趋势
专知会员服务
3+阅读 · 4月19日
相关基金
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员