Recent advances in multimodal Retrieval-Augmented Generation (RAG) enable Large Language Models (LLMs) to analyze enterprise spreadsheet workbooks containing millions of cells, cross-sheet dependencies, and embedded visual artifacts. However, state-of-the-art approaches exclude critical context through single-pass retrieval, lose data resolution through compression, and exceed LLM context windows through naive full-context injection, preventing reliable multi-step reasoning over complex enterprise workbooks. We introduce Beyond Rows to Reasoning (BRTR), a multimodal agentic framework for spreadsheet understanding that replaces single-pass retrieval with an iterative tool-calling loop, supporting end-to-end Excel workflows from complex analysis to structured editing. Supported by over 200 hours of expert human evaluation, BRTR achieves state-of-the-art performance across three frontier spreadsheet understanding benchmarks, surpassing prior methods by 25 percentage points on FRTR-Bench, 7 points on SpreadsheetLLM, and 32 points on FINCH. We evaluate five multimodal embedding models, identifying NVIDIA NeMo Retriever 1B as the top performer for mixed tabular and visual data, and vary nine LLMs. Ablation experiments confirm that the planner, retrieval, and iterative reasoning each contribute substantially, and cost analysis shows GPT-5.2 achieves the best efficiency-accuracy trade-off. Throughout all evaluations, BRTR maintains full auditability through explicit tool-call traces.


翻译:近年来,多模态检索增强生成(RAG)技术的进展使得大型语言模型(LLM)能够分析包含数百万单元格、跨工作表依赖关系及嵌入式可视化元素的企业级电子表格工作簿。然而,现有最优方法因采用单次检索而遗漏关键上下文,因数据压缩而损失分辨率,或因简单全上下文注入而超出LLM的上下文窗口限制,导致无法对复杂企业工作簿进行可靠的多步推理。本文提出"超越行级推理"(BRTR)框架,这是一种用于电子表格理解的多模态智能框架,通过迭代式工具调用循环替代单次检索,支持从复杂分析到结构化编辑的端到端Excel工作流。基于超过200小时的专家人工评估,BRTR在三个前沿电子表格理解基准测试中均达到最优性能:在FRTR-Bench上超越先前方法25个百分点,在SpreadsheetLLM上提升7个百分点,在FINCH上提升32个百分点。我们评估了五种多模态嵌入模型,确定NVIDIA NeMo Retriever 1B在处理混合表格与视觉数据时表现最佳,并测试了九种不同LLM。消融实验证实规划器、检索模块和迭代推理机制均具有显著贡献,成本分析表明GPT-5.2实现了最优的效率-精度平衡。在所有评估过程中,BRTR通过显式的工具调用轨迹始终保持完整的可审计性。

0
下载
关闭预览

相关内容

检索增强生成(RAG)与推理的协同作用:一项系统综述
专知会员服务
34+阅读 · 2025年4月27日
多模态检索增强生成的综合综述
专知会员服务
44+阅读 · 2025年2月17日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
KG-Agent:面向KG复杂推理的高效自治代理框架
专知会员服务
35+阅读 · 2024年6月1日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
60+阅读 · 2024年4月18日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
0+阅读 · 今天16:16
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
6+阅读 · 今天13:54
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
5+阅读 · 今天13:34
【综述】 机器人学习中的世界模型:全面综述
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员