AI agents are changing the requirements for document parsing. What matters is \emph{semantic correctness}: parsed output must preserve the structure and meaning needed for autonomous decisions, including correct table structure, precise chart data, semantically meaningful formatting, and visual grounding. Existing benchmarks do not fully capture this setting for enterprise automation, relying on narrow document distributions and text-similarity metrics that miss agent-critical failures. We introduce \textbf{ParseBench}, a benchmark of ${\sim}2{,}000$ human-verified pages from enterprise documents spanning insurance, finance, and government, organized around five capability dimensions: tables, charts, content faithfulness, semantic formatting, and visual grounding. Across 14 methods spanning vision-language models, specialized document parsers, and LlamaParse, the benchmark reveals a fragmented capability landscape: no method is consistently strong across all five dimensions. LlamaParse Agentic achieves the highest overall score at \agenticoverall\%, and the benchmark highlights the remaining capability gaps across current systems. Dataset and evaluation code are available on https://huggingface.co/datasets/llamaindex/ParseBench and https://github.com/run-llama/ParseBench.


翻译:暂无翻译

0
下载
关闭预览

相关内容

从Idea构想到论文发表:AI for Research全链路综述与实践
专知会员服务
23+阅读 · 2025年7月21日
Al Agent:AI时代的软件革命
专知会员服务
47+阅读 · 2025年5月13日
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
32+阅读 · 2025年3月27日
人工智能专题报告:Operator和Manus打开AI Agent时代
专知会员服务
62+阅读 · 2025年3月12日
【2023新书】医学领域的人工智能革命:GPT-4及以后,282页pdf
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
完备的 AI 学习路线,最详细的中英文资源整理
机器之心
29+阅读 · 2019年4月28日
用PyTorch做物体检测和追踪
AI研习社
12+阅读 · 2019年1月6日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
深度文本匹配在智能客服中的应用
AI100
18+阅读 · 2018年10月24日
人工智能入门书单(附PDF链接)
AI前线
22+阅读 · 2018年8月2日
谷歌 AI:语义文本相似度研究进展
AI研习社
22+阅读 · 2018年6月13日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月21日
Arxiv
0+阅读 · 3月24日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
6+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
9+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
5+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
11+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关资讯
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
完备的 AI 学习路线,最详细的中英文资源整理
机器之心
29+阅读 · 2019年4月28日
用PyTorch做物体检测和追踪
AI研习社
12+阅读 · 2019年1月6日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
深度文本匹配在智能客服中的应用
AI100
18+阅读 · 2018年10月24日
人工智能入门书单(附PDF链接)
AI前线
22+阅读 · 2018年8月2日
谷歌 AI:语义文本相似度研究进展
AI研习社
22+阅读 · 2018年6月13日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员