We present STAgent, an agentic large language model tailored for spatio-temporal understanding, designed to solve complex tasks such as constrained point-of-interest discovery and itinerary planning. STAgent is a specialized model capable of interacting with ten distinct tools within spatio-temporal scenarios, enabling it to explore, verify, and refine intermediate steps during complex reasoning. Notably, STAgent effectively preserves its general capabilities. We empower STAgent with these capabilities through three key contributions: (1) a stable tool environment that supports over ten domain-specific tools, enabling asynchronous rollout and training; (2) a hierarchical data curation framework that identifies high-quality data like a needle in a haystack, curating high-quality queries with a filter ratio of 1:10,000, emphasizing both diversity and difficulty; and (3) a cascaded training recipe that starts with a seed SFT stage acting as a guardian to measure query difficulty, followed by a second SFT stage fine-tuned on queries with high certainty, and an ultimate RL stage that leverages data of low certainty. Initialized with Qwen3-30B-A3B to establish a strong SFT foundation and leverage insights into sample difficulty, STAgent yields promising performance on TravelBench while maintaining its general capabilities across a wide range of general benchmarks, thereby demonstrating the effectiveness of our proposed agentic model.


翻译:本文提出STAgent,一种专为时空理解设计的智能体大语言模型,旨在解决受限兴趣点发现与行程规划等复杂任务。STAgent作为专用模型,能够在时空场景中与十种不同工具交互,从而在复杂推理过程中探索、验证并优化中间步骤。值得注意的是,STAgent有效保持了其通用能力。我们通过三项关键贡献赋予STAgent这些能力:(1)构建支持十余种领域专用工具的稳定工具环境,支持异步推演与训练;(2)设计分层数据筛选框架,以“大海捞针”方式识别高质量数据,以1:10,000的筛选比例提炼高质量查询,兼顾多样性与难度;(3)提出级联训练方案:首先通过种子SFT阶段作为守护机制评估查询难度,随后在确定性高的查询上进行第二阶段SFT微调,最终利用低确定性数据完成强化学习阶段。基于Qwen3-30B-A3B初始化以建立坚实SFT基础并利用样本难度洞察,STAgent在TravelBench基准上展现出优异性能,同时在广泛通用基准测试中保持通用能力,从而验证了我们所提智能体模型的有效性。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2025年2月11日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月8日
Arxiv
0+阅读 · 1月8日
Arxiv
0+阅读 · 1月7日
Arxiv
0+阅读 · 1月5日
VIP会员
相关资讯
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
相关论文
Arxiv
0+阅读 · 1月8日
Arxiv
0+阅读 · 1月8日
Arxiv
0+阅读 · 1月7日
Arxiv
0+阅读 · 1月5日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员