Large language models (LLMs) have emerged as powerful tools for natural language table reasoning, where there are two main categories of methods. Prompt-based approaches rely on language-only inference or one-pass program generation without step-level verification. Agent-based approaches use tools in a closed loop, but verification is often local and backtracking is limited, allowing errors to propagate and increasing cost. Moreover, they rely on chain- or beam-style trajectories that are typically combinatorially redundant, leading to high token costs. In this paper, we propose TabTracer, an agentic framework that coordinates multi-step tool calls over intermediate table states, with explicit state tracking for verification and rollback. First, it enforces step-level verification with typed operations and lightweight numeric and format checks to provide reliable rewards and suppress hallucinations. Second, execution-feedback Monte Carlo Tree Search maintains a search tree of candidate table states and uses backpropagated reflection scores to guide UCB1 selection and rollback via versioned snapshots. Third, it reduces redundancy with budget-aware pruning, deduplication, and state hashing with a monotonicity gate to cut token cost. Comprehensive evaluation on TabFact, WikiTQ, and CRT datasets shows that TabTracer outperforms state-of-the-art baselines by up to 6.7% in accuracy while reducing token consumption by 59--84%.


翻译:大语言模型已成为自然语言表格推理的强大工具,现有方法主要分为两类。基于提示的方法依赖纯语言推理或单次程序生成,缺乏步骤级验证。基于智能体的方法在闭环中使用工具,但验证通常局限于局部且回溯能力有限,导致错误传播与成本增加。此外,这些方法依赖链式或束式轨迹,通常存在组合冗余,造成高昂的令牌开销。本文提出TabTracer——一种智能体框架,通过显式状态跟踪实现中间表格状态的多步骤工具调用协调,支持验证与回滚。首先,该框架通过类型化操作及轻量级数值与格式检查实施步骤级验证,以提供可靠奖励并抑制幻觉。其次,执行反馈型蒙特卡洛树搜索维护候选表格状态的搜索树,利用反向传播的反思分数指导UCB1选择,并通过版本化快照实现回滚。第三,通过预算感知剪枝、去重及带单调性门控的状态哈希技术降低冗余,从而削减令牌成本。在TabFact、WikiTQ和CRT数据集上的综合评估表明,TabTracer在准确率上以最高6.7%的优势超越现有最优基线模型,同时降低59-84%的令牌消耗。

0
下载
关闭预览

相关内容

互联网
大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
面向表格数据的大模型推理综述
专知会员服务
66+阅读 · 2023年12月26日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员