We present STAgent, an agentic large language model tailored for spatio-temporal understanding, designed to solve complex tasks such as constrained point-of-interest discovery and itinerary planning. STAgent is a specialized model capable of interacting with ten distinct tools within spatio-temporal scenarios, enabling it to explore, verify, and refine intermediate steps during complex reasoning. Notably, STAgent effectively preserves its general capabilities. We empower STAgent with these capabilities through three key contributions: (1) a stable tool environment that supports over ten domain-specific tools, enabling asynchronous rollout and training; (2) a hierarchical data curation framework that identifies high-quality data like a needle in a haystack, curating high-quality queries with a filter ratio of 1:10,000, emphasizing both diversity and difficulty; and (3) a cascaded training recipe that starts with a seed SFT stage acting as a guardian to measure query difficulty, followed by a second SFT stage fine-tuned on queries with high certainty, and an ultimate RL stage that leverages data of low certainty. Initialized with Qwen3-30B-A3B to establish a strong SFT foundation and leverage insights into sample difficulty, STAgent yields promising performance on TravelBench while maintaining its general capabilities across a wide range of general benchmarks, thereby demonstrating the effectiveness of our proposed agentic model.


翻译:本文提出STAgent,一种专为时空理解设计的智能体大语言模型,旨在解决受限兴趣点发现与行程规划等复杂任务。STAgent作为专用模型,能够在时空场景中与十种不同工具交互,从而在复杂推理过程中探索、验证并优化中间步骤。值得注意的是,STAgent有效保持了其通用能力。我们通过三项关键贡献赋予STAgent这些能力:(1)构建支持十余种领域专用工具的稳定工具环境,支持异步推演与训练;(2)设计分层数据筛选框架,以“大海捞针”方式识别高质量数据,以1:10,000的筛选比例提炼高质量查询,兼顾多样性与难度;(3)提出级联训练方案:首先通过种子SFT阶段作为守护机制评估查询难度,随后在确定性高的查询上进行第二阶段SFT微调,最终利用低确定性数据完成强化学习阶段。基于Qwen3-30B-A3B初始化以建立坚实SFT基础并利用样本难度洞察,STAgent在TravelBench基准上展现出优异性能,同时在广泛通用基准测试中保持通用能力,从而验证了我们所提智能体模型的有效性。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
AI智能体驱动产业变革研究报告
专知会员服务
38+阅读 · 2025年11月29日
《大模型一体机应用研究报告(2025年)》,48页pdf
专知会员服务
24+阅读 · 2025年11月2日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
32+阅读 · 2025年3月27日
中国AI Agent行业研究报告(二)
专知会员服务
47+阅读 · 2025年3月13日
《大模型驱动的汽车行业群体智能技术白皮书》,176页pdf
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
290+阅读 · 2023年10月12日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月27日
Arxiv
0+阅读 · 1月15日
Arxiv
0+阅读 · 1月8日
VIP会员
相关VIP内容
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
AI智能体驱动产业变革研究报告
专知会员服务
38+阅读 · 2025年11月29日
《大模型一体机应用研究报告(2025年)》,48页pdf
专知会员服务
24+阅读 · 2025年11月2日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
32+阅读 · 2025年3月27日
中国AI Agent行业研究报告(二)
专知会员服务
47+阅读 · 2025年3月13日
《大模型驱动的汽车行业群体智能技术白皮书》,176页pdf
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
290+阅读 · 2023年10月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员