We present STAgent, an agentic large language model tailored for spatio-temporal understanding, designed to solve complex tasks such as constrained point-of-interest discovery and itinerary planning. STAgent is a specialized model capable of interacting with ten distinct tools within spatio-temporal scenarios, enabling it to explore, verify, and refine intermediate steps during complex reasoning. Notably, STAgent effectively preserves its general capabilities. We empower STAgent with these capabilities through three key contributions: (1) a stable tool environment that supports over ten domain-specific tools, enabling asynchronous rollout and training; (2) a hierarchical data curation framework that identifies high-quality data like a needle in a haystack, curating high-quality queries by retaining less than 1\% of the raw data, emphasizing both diversity and difficulty; and (3) a cascaded training recipe that starts with a seed SFT stage acting as a guardian to measure query difficulty, followed by a second SFT stage fine-tuned on queries with high certainty, and an ultimate RL stage that leverages data of low certainty. Initialized with Qwen3-30B-A3B to establish a strong SFT foundation and leverage insights into sample difficulty, STAgent yields promising performance on TravelBench while maintaining its general capabilities across a wide range of general benchmarks, thereby demonstrating the effectiveness of our proposed agentic model.


翻译:我们提出了STAgent,一个专为时空理解而设计的智能体大语言模型,旨在解决诸如受限兴趣点发现和行程规划等复杂任务。STAgent是一个能够在时空场景中与十种不同工具交互的专用模型,使其能够在复杂推理过程中探索、验证并优化中间步骤。值得注意的是,STAgent有效地保留了其通用能力。我们通过以下三项关键贡献赋予STAgent这些能力:(1) 一个支持十余种领域专用工具的稳定工具环境,支持异步推演与训练;(2) 一个分层数据筛选框架,能够从海量数据中识别高质量数据,通过保留不足1%的原始数据来筛选高质量查询,同时强调多样性与难度;(3) 一个级联训练方案,该方案始于一个作为守护者的种子SFT阶段,用于评估查询难度,随后是基于高确定性查询进行微调的第二SFT阶段,以及最终一个利用低确定性数据的RL阶段。STAgent以Qwen3-30B-A3B初始化,以建立坚实的SFT基础并利用对样本难度的洞察,其在TravelBench上展现出有前景的性能,同时在一系列广泛的通用基准测试中保持了其通用能力,从而证明了我们所提出的智能体模型的有效性。

0
下载
关闭预览

相关内容

AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
Arxiv
0+阅读 · 1月7日
Arxiv
0+阅读 · 1月6日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员