We introduce a finance & accounting benchmark (Finch) for evaluating AI agents on real-world, enterprise-grade professional workflows -- interleaving data entry, structuring, formatting, web search, cross-file retrieval, calculation, modeling, validation, translation, visualization, and reporting. Finch is sourced from authentic enterprise workspaces at Enron (15,000 spreadsheets and 500,000 emails from 150 employees) and other financial institutions, preserving in-the-wild messiness across multimodal artifacts (text, tables, formulas, charts, code, and images) and spanning diverse domains such as budgeting, trading, and asset management. We propose a workflow construction process that combines LLM-assisted discovery with expert annotation: (1) LLM-assisted, expert-verified derivation of workflows from real-world email threads and version histories of spreadsheet files, and (2) meticulous expert annotation for workflows, requiring over 700 hours of domain-expert effort. This yields 172 composite workflows with 384 tasks, involving 1,710 spreadsheets with 27 million cells, along with PDFs and other artifacts, capturing the intrinsically messy, long-horizon, knowledge-intensive, and collaborative nature of real-world enterprise work. We conduct both human and automated evaluations of frontier AI systems including GPT 5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4, and Qwen 3 Max, and GPT 5.1 Pro spends 16.8 minutes per workflow yet passes only 38.4% of workflows, while Claude Sonnet 4.5 passes just 25.0%. Comprehensive case studies further surface the challenges that real-world enterprise workflows pose for AI agents.


翻译:我们提出了一个财务与会计基准测试(Finch),用于评估AI智能体在真实企业级专业工作流中的表现——这些工作流交织着数据录入、结构化、格式化、网络搜索、跨文件检索、计算、建模、验证、转换、可视化与报告等任务。Finch的数据来源于安然公司(来自150名员工的15,000份电子表格和500,000封电子邮件)及其他金融机构的真实企业工作空间,保留了多模态工件(文本、表格、公式、图表、代码和图像)在真实场景中的杂乱性,并涵盖预算、交易和资产管理等多个领域。我们提出了一种结合LLM辅助发现与专家标注的工作流构建流程:(1)通过LLM辅助、专家验证的方式,从真实世界的电子邮件线程和电子表格文件的版本历史中推导工作流;(2)由专家对工作流进行细致标注,累计投入超过700小时的领域专家工时。由此构建出包含384个任务的172个复合工作流,涉及1,710个包含2700万个单元格的电子表格,以及PDF和其他工件,真实捕捉了企业工作中固有的杂乱性、长周期、知识密集和协作特性。我们对前沿AI系统(包括GPT 5.1、Claude Sonnet 4.5、Gemini 3 Pro、Grok 4和Qwen 3 Max)进行了人工与自动化评估,其中GPT 5.1 Pro平均每个工作流耗时16.8分钟,但仅能通过38.4%的工作流,而Claude Sonnet 4.5仅通过25.0%。深入的案例研究进一步揭示了真实企业工作流为AI智能体带来的挑战。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员