Prompting Underestimates LLM Capability for Time Series Classification - 专知论文

会员服务 ·

0

序列 · 时间序列 · 序列分类 · 时间序列分类 · 语言模型 ·

Prompting Underestimates LLM Capability for Time Series Classification

翻译：提示方法低估了大型语言模型在时间序列分类中的能力

Dan Schumacher,Erfan Nourbakhsh,Rocky Slavin,Anthony Rios

from arxiv, 8 pages + Appendix and References, 9 figures

Prompt-based evaluations suggest that large language models (LLMs) perform poorly on time series classification, raising doubts about whether they encode meaningful temporal structure. We show that this conclusion reflects limitations of prompt-based generation rather than the model's representational capacity by directly comparing prompt outputs with linear probes over the same internal representations. While zero-shot prompting performs near chance, linear probes improve average F1 from 0.15-0.26 to 0.61-0.67, often matching or exceeding specialized time series models. Layer-wise analyses further show that class-discriminative time series information emerges in early transformer layers and is amplified by visual and multimodal inputs. Together, these results demonstrate a systematic mismatch between what LLMs internally represent and what prompt-based evaluation reveals, leading current evaluations to underestimate their time series understanding.

翻译：基于提示的评估表明，大型语言模型（LLMs）在时间序列分类任务上表现不佳，这引发了关于它们是否编码了有意义的时序结构的质疑。我们通过直接比较提示输出与基于相同内部表征的线性探针，证明这一结论反映的是提示生成方法的局限性，而非模型表征能力的不足。虽然零样本提示的表现接近随机水平，但线性探针将平均F1分数从0.15-0.26提升至0.61-0.67，通常达到甚至超过专门的时间序列模型。分层分析进一步表明，具有类别区分性的时间序列信息在Transformer的早期层中就已出现，并可通过视觉和多模态输入得到增强。这些结果共同表明，LLMs内部表征的内容与基于提示的评估所揭示的内容之间存在系统性不匹配，导致当前评估方法低估了它们对时间序列的理解能力。

0

相关内容

数学上，序列是被排成一列的对象（或事件）；这样每个元素不是在其他元素之前，就是在其他元素之后。这里，元素之间的顺序非常重要。

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

专知会员服务

19+阅读 · 2025年12月23日

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

大语言模型在序列推荐中的应用

大语言模型在序列推荐中的应用

专知会员服务

19+阅读 · 2024年11月12日

大型语言模型在不同自然语言处理任务中的提示工程方法综述

大型语言模型在不同自然语言处理任务中的提示工程方法综述

专知会员服务

60+阅读 · 2024年7月21日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

75+阅读 · 2024年4月2日

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

专知会员服务

47+阅读 · 2023年10月13日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

专知会员服务

87+阅读 · 2023年5月10日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

实例：教你使用简单神经网络和LSTM进行时间序列预测（附代码）

实例：教你使用简单神经网络和LSTM进行时间序列预测（附代码）

数据分析

28+阅读 · 2019年5月23日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

R语言时间序列分析

R语言时间序列分析

R语言中文社区

12+阅读 · 2018年11月19日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

基于LSTM深层神经网络的时间序列预测

基于LSTM深层神经网络的时间序列预测

论智

22+阅读 · 2018年9月4日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

R语言之数据分析高级方法「时间序列」

R语言之数据分析高级方法「时间序列」

R语言中文社区

17+阅读 · 2018年4月24日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏信号驱动的时间序列信号盲分离优化模型及算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

两类Markov排队模型的衰减性质

国家自然科学基金

1+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

Temporal Fact Conflicts in LLMs: Reproducibility Insights from Unifying DYNAMICQA and MULAN

Arxiv

0+阅读 · 3月16日

This Is Taking Too Long -- Investigating Time as a Proxy for Energy Consumption of LLMs

Arxiv

0+阅读 · 3月16日

Distilling Reasoning Without Knowledge: A Framework for Reliable LLMs

Arxiv

0+阅读 · 3月15日

Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

Arxiv

0+阅读 · 3月12日

Ambiguity Collapse by LLMs: A Taxonomy of Epistemic Risks

Arxiv

0+阅读 · 3月6日

From Heuristic Selection to Automated Algorithm Design: LLMs Benefit from Strong Priors

Arxiv

0+阅读 · 3月3日

Semantic-Enhanced Time-Series Forecasting via Large Language Models

Arxiv

0+阅读 · 3月2日

Large Language Models are Algorithmically Blind

Arxiv

0+阅读 · 2月25日

Narrowing the Complexity Gap in the Evaluation of Large Language Models

Arxiv

0+阅读 · 2月21日

Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs

Arxiv

0+阅读 · 2月21日

VIP会员

文章信息

相关主题

时间序列分类

最新内容

新兴反无人机技术与不对称防御对策

新兴反无人机技术与不对称防御对策

专知会员服务

2+阅读 · 今天15:12

《美空军条令出版物 3-60，目标定位（2026版）》

《美空军条令出版物 3-60，目标定位（2026版）》

专知会员服务

3+阅读 · 今天15:06

多模态多智能体AI系统赋能军事态势感知：与单智能体方法的比较研究

多模态多智能体AI系统赋能军事态势感知：与单智能体方法的比较研究

专知会员服务

5+阅读 · 今天14:54

《无人机在冲突地区提供紧急医疗与外科支持》

《无人机在冲突地区提供紧急医疗与外科支持》

专知会员服务

3+阅读 · 今天14:48

《定向能武器交战授权治理管道》

《定向能武器交战授权治理管道》

专知会员服务

3+阅读 · 今天14:41

《防空协同制导：用于中段目标分配的多目标成本函数》

《防空协同制导：用于中段目标分配的多目标成本函数》

专知会员服务

3+阅读 · 今天14:35

《人工智能与海军作战》最新报告

《人工智能与海军作战》最新报告

专知会员服务

3+阅读 · 今天14:00

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

专知会员服务

2+阅读 · 今天13:17

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

专知会员服务

2+阅读 · 今天13:07

具身智能安全综述：风险、攻击与防御的多层分类框架

具身智能安全综述：风险、攻击与防御的多层分类框架

专知会员服务

3+阅读 · 今天13:04

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

专知会员服务

3+阅读 · 今天12:09

具身AI安全综述：风险、攻击与防御

具身AI安全综述：风险、攻击与防御

专知会员服务

3+阅读 · 今天12:02

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

13+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

6+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

8+阅读 · 5月5日

相关VIP内容

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

专知会员服务

19+阅读 · 2025年12月23日

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

大语言模型在序列推荐中的应用

大语言模型在序列推荐中的应用

专知会员服务

19+阅读 · 2024年11月12日

大型语言模型在不同自然语言处理任务中的提示工程方法综述

大型语言模型在不同自然语言处理任务中的提示工程方法综述

专知会员服务

60+阅读 · 2024年7月21日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

75+阅读 · 2024年4月2日

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

专知会员服务

47+阅读 · 2023年10月13日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

专知会员服务

87+阅读 · 2023年5月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《美空军条令出版物 3-60，目标定位（2026版）》

《无人机在冲突地区提供紧急医疗与外科支持》

新兴反无人机技术与不对称防御对策

多模态多智能体AI系统赋能军事态势感知：与单智能体方法的比较研究

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

实例：教你使用简单神经网络和LSTM进行时间序列预测（附代码）

实例：教你使用简单神经网络和LSTM进行时间序列预测（附代码）

数据分析

28+阅读 · 2019年5月23日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

R语言时间序列分析

R语言时间序列分析

R语言中文社区

12+阅读 · 2018年11月19日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

基于LSTM深层神经网络的时间序列预测

基于LSTM深层神经网络的时间序列预测

论智

22+阅读 · 2018年9月4日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

R语言之数据分析高级方法「时间序列」

R语言之数据分析高级方法「时间序列」

R语言中文社区

17+阅读 · 2018年4月24日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

相关论文

Temporal Fact Conflicts in LLMs: Reproducibility Insights from Unifying DYNAMICQA and MULAN

Arxiv

0+阅读 · 3月16日

This Is Taking Too Long -- Investigating Time as a Proxy for Energy Consumption of LLMs

Arxiv

0+阅读 · 3月16日

Distilling Reasoning Without Knowledge: A Framework for Reliable LLMs

Arxiv

0+阅读 · 3月15日

Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

Arxiv

0+阅读 · 3月12日

Ambiguity Collapse by LLMs: A Taxonomy of Epistemic Risks

Arxiv

0+阅读 · 3月6日

From Heuristic Selection to Automated Algorithm Design: LLMs Benefit from Strong Priors

Arxiv

0+阅读 · 3月3日

Semantic-Enhanced Time-Series Forecasting via Large Language Models

Arxiv

0+阅读 · 3月2日

Large Language Models are Algorithmically Blind

Arxiv

0+阅读 · 2月25日

Narrowing the Complexity Gap in the Evaluation of Large Language Models

Arxiv

0+阅读 · 2月21日

Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs

Arxiv

0+阅读 · 2月21日

相关基金

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏信号驱动的时间序列信号盲分离优化模型及算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

两类Markov排队模型的衰减性质

国家自然科学基金

1+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员