Financial and tabular question answering requires more than fluent reasoning: answers must be grounded in the exact facts, formulas, units, signs, and scales that support them. A single misread cell or incorrect operation can silently produce a plausible but wrong result. We introduce \textsc{MOCA-Agent}, a market-of-claims code agent that replaces free-form multi-agent debate with claim-level verification. The system decomposes each question into typed atomic claims, asks specialist trader agents to buy or sell those claims, clears their orders into confidence-weighted accept/reject decisions, and synthesizes an executable Python program from market-supported evidence. A code-aware verifier then checks the program for execution, structural consistency, and common financial reasoning errors, with at most one market-aware repair round. Across ten public benchmarks spanning financial numerical reasoning, general tabular reasoning, ESG question answering, and multimodal chart reasoning, \textsc{MOCA-Agent} achieves strong performance using a fixed Qwen3.6-27B backbone, including $78.3\%$ on FinQA, $76.0\%$ on FinanceMath, $71.2\%$ on MultiHiertt, $86.9\%$ on ESGenius, and $85.6\%$ average on FinChart-Bench. These results show that aggregating evidence at the level of atomic claims, rather than whole answers, improves robustness in high-stakes numerical reasoning.\footnote{The code and data are available: https://github.com/UBC-NLP/MoCA-Agent.


翻译:金融和表格问答不仅要求流畅的推理能力,答案还必须严格基于可支撑的具体事实、公式、单位、符号和量级。单个单元格的误读或错误的操作步骤可能悄无声息地产生看似合理却错误的结论。我们提出\textsc{MOCA-Agent},一种基于声明市场的代码智能体,用声明级验证取代了自由形式的多智能体辩论。该系统将每个问题分解为带类型的原子声明,委托专业交易者智能体买入或卖出这些声明,将其订单清算为置信度加权的接受/拒绝决策,并从市场支持的证据中综合出可执行的Python程序。随后,一个代码感知验证器检查程序的执行情况、结构一致性以及常见的金融推理错误,最多进行一次市场感知修复。在涵盖金融数值推理、通用表格推理、ESG问答和多模态图表推理的十个公开基准测试中,\textsc{MOCA-Agent}使用固定的Qwen3.6-27B主干模型取得了强劲性能,包括在FinQA上达$78.3\%$、在FinanceMath上达$76.0\%$、在MultiHiertt上达$71.2\%$、在ESGenius上达$86.9\%$,以及在FinChart-Bench上平均达$85.6\%$。这些结果表明,在原子声明层面(而非整体答案层面)聚合证据,可以提高高风险数值推理的鲁棒性。\footnote{代码和数据已公开:https://github.com/UBC-NLP/MoCA-Agent。}

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月12日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员