Prompt-based evaluations suggest that large language models (LLMs) perform poorly on time series classification, raising doubts about whether they encode meaningful temporal structure. We show that this conclusion reflects limitations of prompt-based generation rather than the model's representational capacity by directly comparing prompt outputs with linear probes over the same internal representations. While zero-shot prompting performs near chance, linear probes improve average F1 from 0.15-0.26 to 0.61-0.67, often matching or exceeding specialized time series models. Layer-wise analyses further show that class-discriminative time series information emerges in early transformer layers and is amplified by visual and multimodal inputs. Together, these results demonstrate a systematic mismatch between what LLMs internally represent and what prompt-based evaluation reveals, leading current evaluations to underestimate their time series understanding.


翻译:基于提示的评估表明,大型语言模型(LLMs)在时间序列分类任务上表现不佳,这引发了关于它们是否编码了有意义的时序结构的质疑。我们通过直接比较提示输出与基于相同内部表征的线性探针,证明这一结论反映的是提示生成方法的局限性,而非模型表征能力的不足。虽然零样本提示的表现接近随机水平,但线性探针将平均F1分数从0.15-0.26提升至0.61-0.67,通常达到甚至超过专门的时间序列模型。分层分析进一步表明,具有类别区分性的时间序列信息在Transformer的早期层中就已出现,并可通过视觉和多模态输入得到增强。这些结果共同表明,LLMs内部表征的内容与基于提示的评估所揭示的内容之间存在系统性不匹配,导致当前评估方法低估了它们对时间序列的理解能力。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
【NeurIPS2023】大型语言模型是零样本的时间序列预测者
专知会员服务
47+阅读 · 2023年10月13日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
基于LSTM深层神经网络的时间序列预测
论智
22+阅读 · 2018年9月4日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
最新内容
新兴反无人机技术与不对称防御对策
专知会员服务
2+阅读 · 今天15:12
《美空军条令出版物 3-60,目标定位(2026版)》
专知会员服务
3+阅读 · 今天15:06
《无人机在冲突地区提供紧急医疗与外科支持》
专知会员服务
3+阅读 · 今天14:48
《定向能武器交战授权治理管道》
专知会员服务
3+阅读 · 今天14:41
《人工智能与海军作战》最新报告
专知会员服务
3+阅读 · 今天14:00
具身AI安全综述:风险、攻击与防御
专知会员服务
3+阅读 · 今天12:02
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
13+阅读 · 5月5日
相关资讯
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
基于LSTM深层神经网络的时间序列预测
论智
22+阅读 · 2018年9月4日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员