智能体时间序列系统全景综述：架构、可靠性与研究前沿

导读

时间序列研究正在经历一次重要转向。过去，系统的核心任务是根据历史序列预测未来数值；随后，时间序列基础模型开始追求跨数据集、跨领域的零样本泛化；大语言模型进一步带来了自然语言接口、多模态对齐和显式推理。如今，一个更具野心的方向正在形成：让系统不只是“给出预测”，而是能够观察环境、获取证据、调用工具、形成判断、采取行动，并根据反馈持续更新。

综述论文 The Landscape of Agentic Time Series Systems: Architectures, Reliability, and Frontiers 系统梳理了这一新兴领域。论文汇集 200 余篇相关工作，提出由时间序列感知、时间序列推理、规划与行动、记忆与知识、时间序列世界模型构成的五层能力框架，并把可靠性与可信性视为贯穿所有层级的纵向约束。

文章最重要的观点是：时间序列智能体不是“把 LLM 接到时间序列上”，而是在动态、非平稳和反馈延迟的环境中运行的闭环决策系统。

图 1：论文首页。该综述围绕智能体时间序列系统的架构、可靠性、评测、应用与研究前沿展开。

1 Introduction｜引言

金融市场、医疗监测、交通网络、工业设备、能源系统和气候环境都通过时间序列呈现自身状态。然而，真实任务通常不止要求预测下一个数值。系统还需要检查数据质量、识别异常、联系外部事件、选择模型与工具、评估不确定性、解释结果，并在必要时采取具有长期后果的行动。论文将时间序列智能的发展概括为四条相互交织的路线：

基准评测：从预测误差扩展到推理正确性、工具可靠性与决策安全；
基础模型：学习通用时间表示与跨域预测能力；
LLM4TS：连接数值空间、语言空间和显式时间推理；
时间序列智能体：将感知、推理、工具、行动、反馈和记忆组成闭环。图 2：时间序列智能的演进路线。研究正在从模型中心的预测与表示学习，逐步走向语言推理、工具工作流、记忆型智能体和世界模型智能体。这一变化的原因在于，静态输入输出模型难以适应现实环境的四个特征：数据分布会漂移，反馈可能延迟，不确定性会沿预测与决策链累积，部分行动具有成本甚至不可逆。因此，系统的目标从“学习历史到未来的映射”转向“在时间环境中持续获取证据、更新状态并采取可靠行动”。

2 Preliminaries｜预备知识与形式化

四种时间序列系统范式

论文首先划清四种容易混淆的范式。 预训练骨干模型直接从数值序列学习时间表示或预测分布，如 Chronos、MOMENT 和 TimesFM。它们具备较强的通用预测能力，但通常没有工具、记忆和行动闭环。 LLM 翻译器把序列映射为文本、提示、图像、符号或语义表示，使 LLM 能够处理时间信息，如 Time-LLM、TEST 和 ChatTS。它改善了交互与语义对齐，但仍以一次输入输出为主。 LLM 推理器对趋势、周期、异常、相似性和因果关系进行显式推断，并可能使用思维链、审查或强化学习。它能够解释答案，但通常缺少持续记忆、工具驱动行动和反馈适应。 时间序列智能体则维护一个闭环策略：观察时间证据，选择工具或行动，接收环境反馈，更新状态，并决定下一步。推理、记忆、世界模型和验证可以作为更高阶能力加入这一闭环。图 3：基于 LLM 的时间序列系统四种范式。关键分界不是是否使用 LLM，而是系统是否围绕证据、行动、反馈和状态更新形成闭环。

时间序列智能体为何不同

时间序列智能体与一般 NLP 智能体共享工具调用和状态更新机制，但其环境施加了额外约束：

非平稳性要求系统识别制度或工况变化，并及时更新记忆和模型；
延迟反馈要求保留完整轨迹，解决长期信用分配问题；
高成本行动要求风险预算、置信度门槛与人工审批；
不确定性累积要求校准、重规划、拒答和回退策略；
多尺度多模态证据要求对齐数值、事件、日志、图表与文档；
统计可验证性要求趋势、时滞、异常和因果主张能被工具检查。

论文将时间序列智能体定义为相对于动态时间环境存在的闭环系统。感知和规划行动构成最小核心，显式推理、记忆与知识、世界模型则代表逐步增强的能力。验证不是独立层，而是贯穿全系统的约束。图 4：闭环时间序列智能体的五层组合架构。可靠性与可信性约束证据、推理、行动、记忆和模拟的整个运行过程。

3 Time Series Perception｜时间序列感知

感知层解决的问题不是“如何编码序列”，而是当前任务需要看见哪些时间证据，以及以什么形式看见。论文将感知分为五类。

原始数值感知

直接保留数值、时间戳、通道和局部窗口，强调数值忠实性与工具兼容性。它适合精确统计和预测，但长序列会带来上下文压力，简单文本化还可能破坏尺度与精度。

诊断工具感知

通过分解、ACF/PACF、频谱分析、变化点检测、缺失模式和异常检测，将原始序列转换为可检查证据。优势是可复现、可验证；风险是工具选择本身可能错误。

符号感知

用趋势、周期、事件、属性、原型或文本摘要压缩序列，使 LLM 更容易理解。其瓶颈是翻译误差：一旦把正常波动描述成“异常”，后续推理就会建立在错误证据上。

结构感知

显式表示变量关系、时间层级、制度、图结构、主题片段和重复模式。它让智能体看到跨通道依赖与多尺度结构，而不只是孤立数值。

多模态感知

把序列与图表、表格、新闻、日志、天气、电子健康记录等上下文对齐。其价值在于连接真实事件，但必须保留时间戳、来源和对齐关系。图 5：时间序列感知分类，包括原始数值、诊断工具、符号、结构和多模态感知。不同接口暴露不同类型的可操作证据。感知层最终应输出一个结构化证据状态，而不是不可解释的单一向量。证据需要记录来源、时间窗口、处理方法、置信度及支持材料，以便后续推理审计。

4 Time Series Reasoning｜时间序列推理

推理层把结构化证据转化为关于动态模式、数值关系、异常、因果假设、不确定性和未来状态的判断。

模式与结构推理

识别趋势、季节性、周期、突变、异常、制度切换和跨变量关系。关键是区分“看起来相似”和“在时间结构上相似”。

数值与统计推理

计算统计量、阈值、相关性、频率和预测指标。高可信系统不能让 LLM 凭语言直觉完成精确计算，而应把统计操作交给可执行工具。

因果与组合推理

分析滞后效应、外部事件、变量依赖和候选因果路径。论文特别强调，时间先后和相关性不能自动证明因果，需要可检验假设和反事实证据。

反思与元认知推理

检查前述结论是否与原始序列和工具输出一致，评估不确定性，并在证据不足时重试、补充观测或拒答。

慢思考与强化推理

将复杂问题拆解为多步策略，让模型学习何时调用工具、选择哪段数据、如何验证中间结论。强化学习可以优化决策轨迹，但奖励需要同时覆盖正确性、成本与安全。图 6：时间序列推理层将多源时间证据转换为假设、解释、不确定性和可核验依据，并通过反思和工具验证形成决策输入。论文认为，可信时间推理的基本单位应从“最终答案”转向“每一个可验证步骤”。关于趋势、周期、异常、时滞或因果的主张，都应绑定到具体时间窗口、统计量或工具输出。

5 Planning and Action｜规划与行动

规划与行动层是智能体区别于被动推理器的关键。系统不只判断发生了什么，还必须决定下一步做什么。

工作流规划

将开放任务拆解为数据诊断、预处理、模型选择、验证、报告等阶段，并根据反馈修订流程。TimeSeriesScientist、TimeCopilot 等系统把传统分析师的工作显式化。

工具路由与证据获取

智能体根据任务选择分解、异常检测、相关分析、预测、检索、模拟等工具。可靠路由不仅要选对工具，还要传入正确窗口、频率、参数和变量。

模型、数据与代码编排

智能体可以筛选辅助序列、生成代码、运行模型、比较候选方案并管理实验产物。此时输出不再只是预测，而是可复现的分析流程。

多智能体协作

将数据分析、预测、审查、风险控制和报告分配给不同角色。角色分工能减少职责冲突，但也会引入通信成本、错误传播和一致性问题。

外部决策

在金融、交通、能源和工业场景中，智能体可能执行交易、控制、告警或资源配置。行动必须同时满足置信度、风险、权限与人工监督约束。图 7：规划与行动闭环。智能体结合目标、证据、记忆和历史轨迹选择工作流、数据操作、模型、代码、检索、通信或外部干预，并用环境反馈更新状态。

6 Memory and Knowledge｜记忆与知识

时间序列智能体需要的不是对话记录堆积，而是可选择、可更新、可遗忘的结构化经验。论文区分六类记忆：

上下文记忆：保存当前会话中的证据、工具结果和决策状态；
情景记忆：保存历史案例和完整任务轨迹，用于相似场景检索；
时间记忆：记录制度、季节模式、长期依赖和多尺度变化；
知识记忆：保存领域规则、因果结构、工具手册和约束；
程序记忆：保存成功工作流、策略和反思经验；
失败与置信度记忆：记录错误模式、校准信号和不可靠工具。图 8：时间序列智能体的六类记忆及其与感知、推理、规划、世界模型和验证层的交互。记忆需要经历形成、检索和演化。当前系统大多停留在上下文记忆或简单案例检索。真正困难的问题包括：如何处理旧制度与新制度冲突，如何防止过期或投毒记忆影响决策，如何评估跨会话收益，以及程序经验能否跨领域迁移。

7 Time Series World Models｜时间序列世界模型

传统预测回答“接下来会发生什么”，世界模型进一步追问“环境为何这样演化，以及条件改变后会发生什么”。论文总结四条路线：

环境理解

构建变量、事件、时滞和领域约束之间的结构化状态，为关系推理提供基础。但推断出的依赖并不等同于真实因果机制。

时间模拟

根据历史和上下文生成概率未来轨迹。Chronicle 等工作把预测视为世界状态的向前滚动；BRIDGE 则用语言和语义原型控制序列生成。

反事实模拟

比较基准未来与条件改变后的替代未来，例如询问政策、天气或市场事件改变后轨迹如何变化。问题在于替代未来通常不可观测，验证十分困难。

可执行落地

将领域数据、模拟器和验证工具封装为智能体可调用的环境。AgriWorld 展示了农业场景中的世界工具协议，但构建此类环境需要大量领域工程。时间序列世界模型仍处于早期。现实路径可能不是追求统一万能模拟器，而是在农业、交通、能源等部分可模拟领域中，逐步结合结构表示、概率滚动、反事实分析和执行验证。

8 Reliability and Trustworthiness｜可靠性与可信性

智能体系统中的错误会沿闭环传播：噪声导致错误预测，错误预测产生虚假解释，虚假解释触发错误工具或危险行动，行动结果又可能被写入记忆并在未来强化。图 9：智能体时间序列系统中的失败传播。证据噪声、失准、幻觉、错误工具、危险行动和记忆投毒可形成循环；落地检查、安全控制与审计轨迹用于中断传播。论文提出多层可靠性栈：

预测质量：准确率、校准、长时域稳定性和数据泄漏控制；
鲁棒性：制度变化、极端事件、传感器损坏和恢复能力；
推理正确性：数值有效性、时间顺序和因果纪律；
工具可靠性：路由、参数、执行恢复和结果一致性；
幻觉与证据落地：所有事实是否由原始序列、事件或工具支持；
安全与安全防护：提示注入、工具攻击、数据与记忆投毒；
决策安全：风险预算、约束、拒答和升级机制；
可审计性：数据时间戳、提示、工具版本、随机种子和产物可重放。

核心原则是，可靠性不能只在最终输出处检查，而要成为层与层之间的契约。

9 Benchmarks and Evaluation Protocols｜基准与评测协议

论文将评测演进划分为四个阶段。

纯序列基础评测

关注预测、分类、插值和异常检测，衡量数值保真、泛化和校准。这类基准仍是底座，但不能判断模型是否理解真实事件。

异构信息增强评测

在序列之外加入新闻、事件、报告、图像或元数据，但输出仍主要是数值或标签。它测试外部信息能否改善预测。

理解与推理评测

把输出转为问答、解释和思维过程，评估结构识别、跨模态对齐、异常解释与因果推理。但多数仍是静态单轮考试。

系统级智能体评测

要求模型生成代码、构建机器学习流程、主动检索证据和调用工具。TimeSeriesGym、Dr-CiK、TSAIA 等开始评估整个执行轨迹。现有评测主要覆盖感知与推理，规划行动刚刚起步；记忆和世界模型几乎没有标准化协议。未来需要多会话、交互式环境，评估长期记忆、策略适应、延迟反馈和反事实模拟。

10 Applications｜应用领域

综述覆盖七类应用场景。 通用分析强调开放需求下的数据诊断、模型选择、代码执行和透明报告。 金融与交易强调延迟反馈、制度变化、风险预算、回测一致性和可复现执行。 交通与城市系统将预测连接到空间推理、模拟器配置和控制策略。 天气、能源与建筑需要多尺度物理证据、可落地解释、优化和约束控制。 医疗健康要求保守决策、指南知识、置信度校准、拒答与临床人员审查。 工业物联网与可观测性把异常检测扩展为日志、指标和链路追踪驱动的根因诊断。 农业、自动系统、零售与供应链关注预测如何进入模拟、验证、库存配置和运营控制。这些场景表明，模型误差更低不一定带来更好的决策。系统必须同时评估行动成本、风险、延迟和可追溯性。

11 Positions and Frontiers｜立场与研究前沿

论文提出六个核心前沿。

可验证时间推理

从最终答案正确转向步骤级证据落地。每个趋势、时滞与因果主张都应绑定可执行检查。

端到端智能体训练

从手工拼接提示与工具转向联合优化感知、规划、记忆和行动，并解决延迟反馈下的信用分配。

记忆与终身适应

建立主动治理的跨会话记忆，明确保留、更新、遗忘和冲突解决策略，并区分真实迁移与数据泄漏。

时间序列世界模型

从点预测转向可生成未来、可查询反事实、机制可验证的环境模型。

决策中心评测

联合衡量预测、置信度与行动质量，在分布漂移、部分可观测和运营成本下测试真实行为。

标准化时间工具协议

统一数据频率、单位、缺失处理、窗口语义、模型版本、置信度和来源记录，使工具可互操作、可验证、可复现。论文的总体立场是：时间序列智能体应被视为时间决策系统。真正的前沿不是单个更大的预测模型，而是让五层能力在可靠性约束下形成可学习、可审计和可持续改进的闭环。

12 Conclusion｜结论

这篇综述为智能体时间序列系统建立了清晰边界：基础模型负责通用表示，翻译器连接数值与语言，推理器解释时间证据，而智能体则通过工具、行动、反馈和状态更新形成闭环。五层架构提供了理解现有工作的统一坐标。感知决定系统看见什么，推理决定能得出什么结论，规划与行动决定下一步做什么，记忆决定如何积累经验，世界模型决定如何比较可能未来；可靠性则约束每一层是否值得信任。未来的关键不是让时间序列系统输出更流畅的文本，而是让它在动态不确定环境中可靠地分析、决策、学习和行动。只有当证据可追溯、推理可验证、工具可复现、行动受约束、记忆可审计时，时间序列智能体才可能从研究原型走向高风险真实部署。

论文信息

论文标题：The Landscape of Agentic Time Series Systems: Architectures, Reliability, and Frontiers
研究范围：时间序列基础模型、LLM4TS、时间序列推理器与闭环智能体
文献规模：200 余篇代表性工作
项目仓库：https://github.com/TROUBADOUR000/Awesome-Agentic-Time-Series

成为VIP会员查看完整内容