导读

时间序列研究正在经历一次重要转向。过去,系统的核心任务是根据历史序列预测未来数值;随后,时间序列基础模型开始追求跨数据集、跨领域的零样本泛化;大语言模型进一步带来了自然语言接口、多模态对齐和显式推理。如今,一个更具野心的方向正在形成:让系统不只是“给出预测”,而是能够观察环境、获取证据、调用工具、形成判断、采取行动,并根据反馈持续更新。

综述论文 The Landscape of Agentic Time Series Systems: Architectures, Reliability, and Frontiers 系统梳理了这一新兴领域。论文汇集 200 余篇相关工作,提出由时间序列感知、时间序列推理、规划与行动、记忆与知识、时间序列世界模型构成的五层能力框架,并把可靠性与可信性视为贯穿所有层级的纵向约束。

文章最重要的观点是:时间序列智能体不是“把 LLM 接到时间序列上”,而是在动态、非平稳和反馈延迟的环境中运行的闭环决策系统。

图 1:论文首页。该综述围绕智能体时间序列系统的架构、可靠性、评测、应用与研究前沿展开。

1 Introduction|引言

金融市场、医疗监测、交通网络、工业设备、能源系统和气候环境都通过时间序列呈现自身状态。然而,真实任务通常不止要求预测下一个数值。系统还需要检查数据质量、识别异常、联系外部事件、选择模型与工具、评估不确定性、解释结果,并在必要时采取具有长期后果的行动。 论文将时间序列智能的发展概括为四条相互交织的路线:

  • 基准评测:从预测误差扩展到推理正确性、工具可靠性与决策安全;
  • 基础模型:学习通用时间表示与跨域预测能力;
  • LLM4TS:连接数值空间、语言空间和显式时间推理;
  • 时间序列智能体:将感知、推理、工具、行动、反馈和记忆组成闭环。 图 2:时间序列智能的演进路线。研究正在从模型中心的预测与表示学习,逐步走向语言推理、工具工作流、记忆型智能体和世界模型智能体。 这一变化的原因在于,静态输入输出模型难以适应现实环境的四个特征:数据分布会漂移,反馈可能延迟,不确定性会沿预测与决策链累积,部分行动具有成本甚至不可逆。 因此,系统的目标从“学习历史到未来的映射”转向“在时间环境中持续获取证据、更新状态并采取可靠行动”。

2 Preliminaries|预备知识与形式化

四种时间序列系统范式

论文首先划清四种容易混淆的范式。 预训练骨干模型直接从数值序列学习时间表示或预测分布,如 Chronos、MOMENT 和 TimesFM。它们具备较强的通用预测能力,但通常没有工具、记忆和行动闭环。 LLM 翻译器把序列映射为文本、提示、图像、符号或语义表示,使 LLM 能够处理时间信息,如 Time-LLM、TEST 和 ChatTS。它改善了交互与语义对齐,但仍以一次输入输出为主。 LLM 推理器对趋势、周期、异常、相似性和因果关系进行显式推断,并可能使用思维链、审查或强化学习。它能够解释答案,但通常缺少持续记忆、工具驱动行动和反馈适应。 时间序列智能体则维护一个闭环策略:观察时间证据,选择工具或行动,接收环境反馈,更新状态,并决定下一步。推理、记忆、世界模型和验证可以作为更高阶能力加入这一闭环。 图 3:基于 LLM 的时间序列系统四种范式。关键分界不是是否使用 LLM,而是系统是否围绕证据、行动、反馈和状态更新形成闭环。

时间序列智能体为何不同

时间序列智能体与一般 NLP 智能体共享工具调用和状态更新机制,但其环境施加了额外约束:

  • 非平稳性要求系统识别制度或工况变化,并及时更新记忆和模型;
  • 延迟反馈要求保留完整轨迹,解决长期信用分配问题;
  • 高成本行动要求风险预算、置信度门槛与人工审批;
  • 不确定性累积要求校准、重规划、拒答和回退策略;
  • 多尺度多模态证据要求对齐数值、事件、日志、图表与文档;
  • 统计可验证性要求趋势、时滞、异常和因果主张能被工具检查。

论文将时间序列智能体定义为相对于动态时间环境存在的闭环系统。感知和规划行动构成最小核心,显式推理、记忆与知识、世界模型则代表逐步增强的能力。验证不是独立层,而是贯穿全系统的约束。 图 4:闭环时间序列智能体的五层组合架构。可靠性与可信性约束证据、推理、行动、记忆和模拟的整个运行过程。

3 Time Series Perception|时间序列感知

感知层解决的问题不是“如何编码序列”,而是当前任务需要看见哪些时间证据,以及以什么形式看见。 论文将感知分为五类。

原始数值感知

直接保留数值、时间戳、通道和局部窗口,强调数值忠实性与工具兼容性。它适合精确统计和预测,但长序列会带来上下文压力,简单文本化还可能破坏尺度与精度。

诊断工具感知

通过分解、ACF/PACF、频谱分析、变化点检测、缺失模式和异常检测,将原始序列转换为可检查证据。优势是可复现、可验证;风险是工具选择本身可能错误。

符号感知

用趋势、周期、事件、属性、原型或文本摘要压缩序列,使 LLM 更容易理解。其瓶颈是翻译误差:一旦把正常波动描述成“异常”,后续推理就会建立在错误证据上。

结构感知

显式表示变量关系、时间层级、制度、图结构、主题片段和重复模式。它让智能体看到跨通道依赖与多尺度结构,而不只是孤立数值。

多模态感知

把序列与图表、表格、新闻、日志、天气、电子健康记录等上下文对齐。其价值在于连接真实事件,但必须保留时间戳、来源和对齐关系。 图 5:时间序列感知分类,包括原始数值、诊断工具、符号、结构和多模态感知。不同接口暴露不同类型的可操作证据。 感知层最终应输出一个结构化证据状态,而不是不可解释的单一向量。证据需要记录来源、时间窗口、处理方法、置信度及支持材料,以便后续推理审计。

4 Time Series Reasoning|时间序列推理

推理层把结构化证据转化为关于动态模式、数值关系、异常、因果假设、不确定性和未来状态的判断。

模式与结构推理

识别趋势、季节性、周期、突变、异常、制度切换和跨变量关系。关键是区分“看起来相似”和“在时间结构上相似”。

数值与统计推理

计算统计量、阈值、相关性、频率和预测指标。高可信系统不能让 LLM 凭语言直觉完成精确计算,而应把统计操作交给可执行工具。

因果与组合推理

分析滞后效应、外部事件、变量依赖和候选因果路径。论文特别强调,时间先后和相关性不能自动证明因果,需要可检验假设和反事实证据。

反思与元认知推理

检查前述结论是否与原始序列和工具输出一致,评估不确定性,并在证据不足时重试、补充观测或拒答。

慢思考与强化推理

将复杂问题拆解为多步策略,让模型学习何时调用工具、选择哪段数据、如何验证中间结论。强化学习可以优化决策轨迹,但奖励需要同时覆盖正确性、成本与安全。 图 6:时间序列推理层将多源时间证据转换为假设、解释、不确定性和可核验依据,并通过反思和工具验证形成决策输入。 论文认为,可信时间推理的基本单位应从“最终答案”转向“每一个可验证步骤”。关于趋势、周期、异常、时滞或因果的主张,都应绑定到具体时间窗口、统计量或工具输出。

5 Planning and Action|规划与行动

规划与行动层是智能体区别于被动推理器的关键。系统不只判断发生了什么,还必须决定下一步做什么。

工作流规划

将开放任务拆解为数据诊断、预处理、模型选择、验证、报告等阶段,并根据反馈修订流程。TimeSeriesScientist、TimeCopilot 等系统把传统分析师的工作显式化。

工具路由与证据获取

智能体根据任务选择分解、异常检测、相关分析、预测、检索、模拟等工具。可靠路由不仅要选对工具,还要传入正确窗口、频率、参数和变量。

模型、数据与代码编排

智能体可以筛选辅助序列、生成代码、运行模型、比较候选方案并管理实验产物。此时输出不再只是预测,而是可复现的分析流程。

多智能体协作

将数据分析、预测、审查、风险控制和报告分配给不同角色。角色分工能减少职责冲突,但也会引入通信成本、错误传播和一致性问题。

外部决策

在金融、交通、能源和工业场景中,智能体可能执行交易、控制、告警或资源配置。行动必须同时满足置信度、风险、权限与人工监督约束。 图 7:规划与行动闭环。智能体结合目标、证据、记忆和历史轨迹选择工作流、数据操作、模型、代码、检索、通信或外部干预,并用环境反馈更新状态。

6 Memory and Knowledge|记忆与知识

时间序列智能体需要的不是对话记录堆积,而是可选择、可更新、可遗忘的结构化经验。 论文区分六类记忆:

  • 上下文记忆:保存当前会话中的证据、工具结果和决策状态;
  • 情景记忆:保存历史案例和完整任务轨迹,用于相似场景检索;
  • 时间记忆:记录制度、季节模式、长期依赖和多尺度变化;
  • 知识记忆:保存领域规则、因果结构、工具手册和约束;
  • 程序记忆:保存成功工作流、策略和反思经验;
  • 失败与置信度记忆:记录错误模式、校准信号和不可靠工具。 图 8:时间序列智能体的六类记忆及其与感知、推理、规划、世界模型和验证层的交互。记忆需要经历形成、检索和演化。 当前系统大多停留在上下文记忆或简单案例检索。真正困难的问题包括:如何处理旧制度与新制度冲突,如何防止过期或投毒记忆影响决策,如何评估跨会话收益,以及程序经验能否跨领域迁移。

7 Time Series World Models|时间序列世界模型

传统预测回答“接下来会发生什么”,世界模型进一步追问“环境为何这样演化,以及条件改变后会发生什么”。 论文总结四条路线:

环境理解

构建变量、事件、时滞和领域约束之间的结构化状态,为关系推理提供基础。但推断出的依赖并不等同于真实因果机制。

时间模拟

根据历史和上下文生成概率未来轨迹。Chronicle 等工作把预测视为世界状态的向前滚动;BRIDGE 则用语言和语义原型控制序列生成。

反事实模拟

比较基准未来与条件改变后的替代未来,例如询问政策、天气或市场事件改变后轨迹如何变化。问题在于替代未来通常不可观测,验证十分困难。

可执行落地

将领域数据、模拟器和验证工具封装为智能体可调用的环境。AgriWorld 展示了农业场景中的世界工具协议,但构建此类环境需要大量领域工程。 时间序列世界模型仍处于早期。现实路径可能不是追求统一万能模拟器,而是在农业、交通、能源等部分可模拟领域中,逐步结合结构表示、概率滚动、反事实分析和执行验证。

8 Reliability and Trustworthiness|可靠性与可信性

智能体系统中的错误会沿闭环传播:噪声导致错误预测,错误预测产生虚假解释,虚假解释触发错误工具或危险行动,行动结果又可能被写入记忆并在未来强化。 图 9:智能体时间序列系统中的失败传播。证据噪声、失准、幻觉、错误工具、危险行动和记忆投毒可形成循环;落地检查、安全控制与审计轨迹用于中断传播。 论文提出多层可靠性栈:

  • 预测质量:准确率、校准、长时域稳定性和数据泄漏控制;
  • 鲁棒性:制度变化、极端事件、传感器损坏和恢复能力;
  • 推理正确性:数值有效性、时间顺序和因果纪律;
  • 工具可靠性:路由、参数、执行恢复和结果一致性;
  • 幻觉与证据落地:所有事实是否由原始序列、事件或工具支持;
  • 安全与安全防护:提示注入、工具攻击、数据与记忆投毒;
  • 决策安全:风险预算、约束、拒答和升级机制;
  • 可审计性:数据时间戳、提示、工具版本、随机种子和产物可重放。

核心原则是,可靠性不能只在最终输出处检查,而要成为层与层之间的契约。

9 Benchmarks and Evaluation Protocols|基准与评测协议

论文将评测演进划分为四个阶段。

纯序列基础评测

关注预测、分类、插值和异常检测,衡量数值保真、泛化和校准。这类基准仍是底座,但不能判断模型是否理解真实事件。

异构信息增强评测

在序列之外加入新闻、事件、报告、图像或元数据,但输出仍主要是数值或标签。它测试外部信息能否改善预测。

理解与推理评测

把输出转为问答、解释和思维过程,评估结构识别、跨模态对齐、异常解释与因果推理。但多数仍是静态单轮考试。

系统级智能体评测

要求模型生成代码、构建机器学习流程、主动检索证据和调用工具。TimeSeriesGym、Dr-CiK、TSAIA 等开始评估整个执行轨迹。 现有评测主要覆盖感知与推理,规划行动刚刚起步;记忆和世界模型几乎没有标准化协议。未来需要多会话、交互式环境,评估长期记忆、策略适应、延迟反馈和反事实模拟。

10 Applications|应用领域

综述覆盖七类应用场景。 通用分析强调开放需求下的数据诊断、模型选择、代码执行和透明报告。 金融与交易强调延迟反馈、制度变化、风险预算、回测一致性和可复现执行。 交通与城市系统将预测连接到空间推理、模拟器配置和控制策略。 天气、能源与建筑需要多尺度物理证据、可落地解释、优化和约束控制。 医疗健康要求保守决策、指南知识、置信度校准、拒答与临床人员审查。 工业物联网与可观测性把异常检测扩展为日志、指标和链路追踪驱动的根因诊断。 农业、自动系统、零售与供应链关注预测如何进入模拟、验证、库存配置和运营控制。 这些场景表明,模型误差更低不一定带来更好的决策。系统必须同时评估行动成本、风险、延迟和可追溯性。

11 Positions and Frontiers|立场与研究前沿

论文提出六个核心前沿。

可验证时间推理

从最终答案正确转向步骤级证据落地。每个趋势、时滞与因果主张都应绑定可执行检查。

端到端智能体训练

从手工拼接提示与工具转向联合优化感知、规划、记忆和行动,并解决延迟反馈下的信用分配。

记忆与终身适应

建立主动治理的跨会话记忆,明确保留、更新、遗忘和冲突解决策略,并区分真实迁移与数据泄漏。

时间序列世界模型

从点预测转向可生成未来、可查询反事实、机制可验证的环境模型。

决策中心评测

联合衡量预测、置信度与行动质量,在分布漂移、部分可观测和运营成本下测试真实行为。

标准化时间工具协议

统一数据频率、单位、缺失处理、窗口语义、模型版本、置信度和来源记录,使工具可互操作、可验证、可复现。 论文的总体立场是:时间序列智能体应被视为时间决策系统。真正的前沿不是单个更大的预测模型,而是让五层能力在可靠性约束下形成可学习、可审计和可持续改进的闭环。

12 Conclusion|结论

这篇综述为智能体时间序列系统建立了清晰边界:基础模型负责通用表示,翻译器连接数值与语言,推理器解释时间证据,而智能体则通过工具、行动、反馈和状态更新形成闭环。 五层架构提供了理解现有工作的统一坐标。感知决定系统看见什么,推理决定能得出什么结论,规划与行动决定下一步做什么,记忆决定如何积累经验,世界模型决定如何比较可能未来;可靠性则约束每一层是否值得信任。 未来的关键不是让时间序列系统输出更流畅的文本,而是让它在动态不确定环境中可靠地分析、决策、学习和行动。只有当证据可追溯、推理可验证、工具可复现、行动受约束、记忆可审计时,时间序列智能体才可能从研究原型走向高风险真实部署。

论文信息

  • 论文标题:The Landscape of Agentic Time Series Systems: Architectures, Reliability, and Frontiers
  • 研究范围:时间序列基础模型、LLM4TS、时间序列推理器与闭环智能体
  • 文献规模:200 余篇代表性工作
  • 项目仓库https://github.com/TROUBADOUR000/Awesome-Agentic-Time-Series
成为VIP会员查看完整内容
12

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
时间序列大模型综述
专知会员服务
46+阅读 · 2025年4月8日
时间序列预测的全面综述:架构多样性与开放挑战
专知会员服务
35+阅读 · 2024年11月13日
「深度时间序列模型」综述
专知会员服务
44+阅读 · 2024年7月19日
时间序列和时空数据扩散模型综述
专知会员服务
64+阅读 · 2024年5月1日
【2022新书】基于计算智能的时间序列分析,191页pdf
专知会员服务
94+阅读 · 2022年10月20日
专知会员服务
237+阅读 · 2020年12月15日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Arxiv
0+阅读 · 6月10日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
3+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
7+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关VIP内容
时间序列大模型综述
专知会员服务
46+阅读 · 2025年4月8日
时间序列预测的全面综述:架构多样性与开放挑战
专知会员服务
35+阅读 · 2024年11月13日
「深度时间序列模型」综述
专知会员服务
44+阅读 · 2024年7月19日
时间序列和时空数据扩散模型综述
专知会员服务
64+阅读 · 2024年5月1日
【2022新书】基于计算智能的时间序列分析,191页pdf
专知会员服务
94+阅读 · 2022年10月20日
专知会员服务
237+阅读 · 2020年12月15日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员