FinTrace: Holistic Trajectory-Level Evaluation of LLM Tool Calling for Long-Horizon Financial Tasks

Yupeng Cao,Haohang Li,Weijin Liu,Wenbo Cao,Anke Xu,Lingfei Qian,Xueqing Peng,Minxue Tang,Zhiyuan Yao,Jimin Huang,K. P. Subbalakshmi,Zining Zhu,Jordan W. Suchow,Yangyang Yu

Recent studies demonstrate that tool-calling capability enables large language models (LLMs) to interact with external environments for long-horizon financial tasks. While existing benchmarks have begun evaluating financial tool calling, they focus on limited scenarios and rely on call-level metrics that fail to capture trajectory-level reasoning quality. To address this gap, we introduce FinTrace, a benchmark comprising 800 expert-annotated trajectories spanning 34 real-world financial task categories across multiple difficulty levels. FinTrace employs a rubric-based evaluation protocol with nine metrics organized along four axes -- action correctness, execution efficiency, process quality, and output quality -- enabling fine-grained assessment of LLM tool-calling behavior. Our evaluation of 13 LLMs reveals that while frontier models achieve strong tool selection, all models struggle with information utilization and final answer quality, exposing a critical gap between invoking the right tools and reasoning effectively over their outputs. To move beyond diagnosis, we construct FinTrace-Training, the first trajectory-level preference dataset for financial tool-calling, containing 8,196 curated trajectories with tool-augmented contexts and preference pairs. We fine-tune Qwen-3.5-9B using supervised fine-tuning followed by direct preference optimization (DPO) and show that training on FinTrace-Training consistently improves intermediate reasoning metrics, with DPO more effectively suppressing failure modes. However, end-to-end answer quality remains a bottleneck, indicating that trajectory-level improvements do not yet fully propagate to final output quality.

翻译：[translated abstract in Chinese] 近期研究表明，工具调用能力使大型语言模型（LLMs）能够与外部环境交互以完成长周期金融任务。现有基准虽已开始评估金融工具调用，但聚焦于有限场景且依赖调用级指标，未能捕捉轨迹级的推理质量。为填补这一空白，我们提出FinTrace基准，包含800条经专家标注的轨迹，覆盖34个真实金融任务类别及多个难度层级。FinTrace采用基于评分标准的评估协议，包含沿四个维度（动作正确性、执行效率、流程质量与输出质量）组织的九个指标，实现了对LLM工具调用行为的细粒度评估。我们对13个LLM的评估表明，尽管前沿模型在工具选择方面表现优异，但所有模型在信息利用与最终答案质量上仍存在困难，这揭示出正确调用工具与基于工具输出进行有效推理之间的关键差距。为超越诊断层面，我们构建了FinTrace-Training——首个面向金融工具调用的轨迹级偏好数据集，包含8,196条经筛选的轨迹及其工具增强上下文与偏好对。我们采用监督微调结合直接偏好优化（DPO）对Qwen-3.5-9B进行微调，结果表明基于FinTrace-Training的训练能持续改善中间推理指标，且DPO更有效地抑制了错误模式。然而，端到端答案质量仍是瓶颈，表明轨迹级改进尚未完全传导至最终输出质量。