论文题目:Scaling Generalist Data-Analytic Agents
本文作者:乔硕斐(浙江大学)、赵延秋(浙江大学)、邱志松(浙江大学)、王潇斌(阿里巴巴)、张锦添(浙江大学)、赵斌(浙江大学)、张宁豫(浙江大学)、蒋勇(阿里巴巴)、谢朋峻(阿里巴巴)、黄非(阿里巴巴)、陈华钧(浙江大学)
发表会议:ICLR 2026
论文链接:https://arxiv.org/abs/2509.25084
代码链接:https://github.com/zjunlp/DataMind
欢迎转载,转载请注明出处****
一、引言
随着大语言模型在数学、代码、科学推理等任务上展现惊人能力,AI正迈入“下半场”——从单纯的对话问答转向解决复杂的、领域特定的智能体任务。其中,数据分析智能体因其在自动化科学研究中的核心地位,成为实现“AI创新”的关键支柱。然而,当前的数据分析智能体大多基于闭源模型,依赖复杂的提示工程或多智能体协作框架,且难以应对真实世界中多样化的数据格式、大规模文件以及长程、多步的复杂推理。
面对这一现状,我们提出了 DataMind,一个可扩展的、面向开源模型的数据合成与智能体训练方案。DataMind 系统性解决了构建开源数据分析智能体的三大核心挑战:
基于DataMind方案,团队构建了高质量训练集 DataMind-12K,并训练了 DataMind-7B 与 DataMind-14B 模型,本文将深入解读这一工作的核心技术与关键发现。 二、方法
DataMind 的完整流程包含四个精心设计的核心组件,形成了一套从数据到训练再到工程落地的完整闭环。
1. 高质量数据合成与筛选
2. 动态平衡的训练目标
在训练阶段,论文发现传统的SFT-then-RL范式难以稳定。SFT虽能快速学习范式,但容易过拟合;RL探索空间大,但极不稳定。为此,DataMind引入了动态系数 来联合优化SFT和RL损失: 通过余弦衰减调度,训练初期以SFT为主(高),为模型提供稳定引导;后期逐步降低,鼓励RL自主探索,从而在稳定性和探索能力之间取得动态平衡。 3. 内存高效且稳定的多轮执行框架
为了解决多轮代码执行中内存爆炸和运行不稳定的问题,DataMind设计了三大工程优化:
4. 多维度的奖励设计
奖励函数由三部分构成:格式奖励(确保输出格式规范)、答案奖励(使用GPT-4o-mini评估答案正确性)和长度奖励(惩罚冗长输出,鼓励简洁)。奖励设计核心在于:只要答案正确,模型即可获得较高保底奖励(≥0.5),再根据答案长度进行微调,有效抑制模型通过生成无效长文来“投机”的行为。 三、主要实验
本文三个具有代表性的数据集上对DataMind进行了初步评估:DABench(表格数据分析)、TableBench(复杂表格推理)和BIRD(Text-to-SQL)。对比的基线包括GPT-4o、o4-mini、DeepSeek-R1、DeepSeek-V3.1、GPT-5等闭源模型,以及Llama-3.3、Qwen-2.5系列和专门为数据相关任务微调的TableLLM、OmniSQL等开源模型。
从实验结果中我们可以观察到以下几点:
四、分析
自一致过滤优于最佳轨迹选择:实验发现,保留所有通过自一致检验的轨迹(即使不选择Judge Model认为的最佳),比只选择单条最佳轨迹更能提升模型性能。这表明,推理路径的多样性对智能体学习至关重要,丰富的解题策略比单一的高质量答案更有价值。
SFT损失既可以是RL的稳定器也可以是绊脚石:动态调整SFT损失的权重可以稳定RL训练。实验显示,如果全程没有SFT损失(=0)或SFT损失占比较小(=0.2),训练过程会迅速崩溃;如果全程保持高权重(=0.8),模型则会因过拟合SFT数据而陷入局部最优,丧失探索能力。只有采用动态衰减策略,才能让模型先“站稳”(SFT引导),后“奔跑”(RL探索),实现持续稳定的性能提升。
RL能缩小差距,但无法逆转顺序:在不同程度的SFT Cold Start后接入RL,结果表明:RL可以显著缩小不同性能基座模型之间的差距,但最终性能依然与基座模型的初始能力呈正相关。这印证了一个观点:RL的主要作用是激发和调动模型在SFT阶段习得的潜在能力,而非凭空创造新的能力。
五、总结
本文提出了 DataMind,一个面向通用数据分析智能体的可扩展数据合成与训练方案。通过系统性解决数据、训练和工程层面的核心挑战,DataMind成功训练出 DataMind-7B/14B 两个模型,在多个基准上超越了包括GPT-5在内的顶尖闭源模型。更重要的是,本文开源了全部数据和模型(DataMind-12K、DataMind-7B/14B),并分享了在数据过滤、训练策略、RL作用等方面的宝贵经验,旨在为社区在智能体训练这一前沿领域提供可操作、可复现的实践指南。