Large language models (LLMs) have emerged as powerful tools for natural language table reasoning, where there are two main categories of methods. Prompt-based approaches rely on language-only inference or one-pass program generation without step-level verification. Agent-based approaches use tools in a closed loop, but verification is often local and backtracking is limited, allowing errors to propagate and increasing cost. Moreover, they rely on chain- or beam-style trajectories that are typically combinatorially redundant, leading to high token costs. In this paper, we propose TabTracer, an agentic framework that coordinates multi-step tool calls over intermediate table states, with explicit state tracking for verification and rollback. First, it enforces step-level verification with typed operations and lightweight numeric and format checks to provide reliable rewards and suppress hallucinations. Second, execution-feedback Monte Carlo Tree Search maintains a search tree of candidate table states and uses backpropagated reflection scores to guide UCB1 selection and rollback via versioned snapshots. Third, it reduces redundancy with budget-aware pruning, deduplication, and state hashing with a monotonicity gate to cut token cost. Comprehensive evaluation on TabFact, WikiTQ, and CRT datasets shows that TabTracer outperforms state-of-the-art baselines by up to 6.7% in accuracy while reducing token consumption by 59--84%.


翻译:大语言模型已成为自然语言表格推理的强大工具,现有方法主要分为两类。基于提示的方法依赖纯语言推理或单次程序生成,缺乏步骤级验证。基于智能体的方法在闭环中使用工具,但验证通常局限于局部且回溯能力有限,导致错误传播与成本增加。此外,这些方法依赖链式或束式轨迹,通常存在组合冗余,造成高昂的令牌开销。本文提出TabTracer——一种智能体框架,通过显式状态跟踪实现中间表格状态的多步骤工具调用协调,支持验证与回滚。首先,该框架通过类型化操作及轻量级数值与格式检查实施步骤级验证,以提供可靠奖励并抑制幻觉。其次,执行反馈型蒙特卡洛树搜索维护候选表格状态的搜索树,利用反向传播的反思分数指导UCB1选择,并通过版本化快照实现回滚。第三,通过预算感知剪枝、去重及带单调性门控的状态哈希技术降低冗余,从而削减令牌成本。在TabFact、WikiTQ和CRT数据集上的综合评估表明,TabTracer在准确率上以最高6.7%的优势超越现有最优基线模型,同时降低59-84%的令牌消耗。

0
下载
关闭预览

相关内容

互联网
大语言模型的智能体化推理
专知会员服务
34+阅读 · 1月21日
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
面向表格数据的大模型推理综述
专知会员服务
67+阅读 · 2023年12月26日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
人工智能即服务与未来战争(印度视角)
专知会员服务
0+阅读 · 39分钟前
《美国战争部2027财年军事人员预算》
专知会员服务
0+阅读 · 52分钟前
伊朗战争中的电子战
专知会员服务
3+阅读 · 今天7:04
大语言模型平台在国防情报应用中的对比
专知会员服务
5+阅读 · 今天3:12
美海军“超配项目”
专知会员服务
6+阅读 · 今天2:13
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
10+阅读 · 4月21日
《军用自主人工智能系统的治理与安全》
专知会员服务
7+阅读 · 4月21日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员