Data-analytic agents are emerging as a key catalyst for automated scientific discovery and for the vision of Innovating AI. Current approaches, however, rely heavily on prompt engineering over proprietary models, while open-source models struggle to face diverse-format, large-scale data files and long-horizon, multi-step reasoning that real-world analytics demands. This paper introduces DataMind, a scalable data synthesis and agent training recipe designed to build generalist data-analytic agents. DataMind tackles three key challenges in building open-source data-analytic agents, including insufficient data resources, improper training strategy, and unstable code-based multi-turn rollout. Concretely, DataMind applies 1) a fine-grained task taxonomy and a recursive easy-to-hard task composition mechanism to increase the diversity and difficulty of synthesized queries; 2) a knowledge-augmented trajectory sampling strategy followed by model-based and rule-based filtering; 3) a dynamically adjustable training objective combining both SFT and RL losses; 4) a memory-frugal and stable code-based multi-turn rollout framework. Built on DataMind, we curate DataMind-12K, a high-quality trajectory set spanning diverse domains, task categories, and data file formats for data-analytic tasks. Trained on DataMind-12K, our DataMind-14B achieves state-of-the-art with an average score of 71.16% on multiple data analysis benchmarks, outperforming the strongest proprietary baselines DeepSeek-V3.1 and GPT-5. Our DataMind-7B also performs best among all open-source models with a score of 68.10%. We also incorporate some empirical insights gained from our exploratory trials into the analysis experiments, aiming to provide actionable insights about agentic training for the community. We will release DataMind-12K and DataMind-7B,14B for the community's future research.


翻译:数据分析智能体正成为自动化科学发现与"创新AI"愿景的关键催化剂。然而,当前方法严重依赖基于专有模型的提示工程,而开源模型难以应对现实世界分析任务所要求的多样化格式、大规模数据文件以及长跨度、多步骤推理。本文提出DataMind,一种可扩展的数据合成与智能体训练方案,旨在构建通用数据分析智能体。DataMind解决了构建开源数据分析智能体的三个关键挑战:数据资源不足、训练策略不当以及基于代码的多轮次执行不稳定。具体而言,DataMind采用:1)细粒度任务分类法与递归式由易到难任务组合机制,以提升合成查询的多样性与难度;2)知识增强的轨迹采样策略,辅以基于模型和基于规则的过滤;3)结合监督微调与强化学习损失的动态可调训练目标;4)内存高效且稳定的基于代码多轮次执行框架。基于DataMind,我们构建了DataMind-12K——一个涵盖多领域、多任务类别及多数据文件格式的高质量数据分析任务轨迹数据集。在DataMind-12K上训练的DataMind-14B模型,在多个数据分析基准测试中平均得分达71.16%,超越最强的专有基线模型DeepSeek-V3.1与GPT-5,达到最先进水平。我们的DataMind-7B模型同样以68.10%的得分在所有开源模型中表现最佳。我们还将探索性试验中获得的实证见解融入分析实验,旨在为学界提供关于智能体训练的可操作性洞见。我们将向社区开源DataMind-12K数据集及DataMind-7B、14B模型,以促进未来研究。

0
下载
关闭预览

相关内容

通用智能体评估的逻辑架构
专知会员服务
21+阅读 · 2月28日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
迈向智能体系统规模化的科学
专知会员服务
22+阅读 · 2025年12月12日
LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
大模型智能体:概念、前沿和产业实践
专知会员服务
78+阅读 · 2024年8月20日
完备的 AI 学习路线,最详细的资源整理!
新智元
18+阅读 · 2019年5月4日
清华178页深度报告:一文看懂AI数据挖掘
人工智能学家
10+阅读 · 2019年2月18日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
7+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
17+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
美海警海上态势感知无人系统
专知会员服务
6+阅读 · 4月28日
相关VIP内容
通用智能体评估的逻辑架构
专知会员服务
21+阅读 · 2月28日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
迈向智能体系统规模化的科学
专知会员服务
22+阅读 · 2025年12月12日
LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
大模型智能体:概念、前沿和产业实践
专知会员服务
78+阅读 · 2024年8月20日
相关资讯
完备的 AI 学习路线,最详细的资源整理!
新智元
18+阅读 · 2019年5月4日
清华178页深度报告:一文看懂AI数据挖掘
人工智能学家
10+阅读 · 2019年2月18日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员