Non-stationary environments require agents to revise previously learned action values when contingencies change. We treat large language models (LLMs) as sequential decision policies in a two-option probabilistic reversal-learning task with three latent states and switch events triggered by either a performance criterion or timeout. We compare a deterministic fixed transition cycle to a stochastic random schedule that increases volatility, and evaluate DeepSeek-V3.2, Gemini-3, and GPT-5.2, with human data as a behavioural reference. Across models, win-stay was near ceiling while lose-shift was markedly attenuated, revealing asymmetric use of positive versus negative evidence. DeepSeek-V3.2 showed extreme perseveration after reversals and weak acquisition, whereas Gemini-3 and GPT-5.2 adapted more rapidly but still remained less loss-sensitive than humans. Random transitions amplified reversal-specific persistence across LLMs yet did not uniformly reduce total wins, demonstrating that high aggregate payoff can coexist with rigid adaptation. Hierarchical reinforcement-learning (RL) fits indicate dissociable mechanisms: rigidity can arise from weak loss learning, inflated policy determinism, or value polarisation via counterfactual suppression. These results motivate reversal-sensitive diagnostics and volatility-aware models for evaluating LLMs under non-stationary uncertainty.


翻译:非平稳环境要求智能体在事件条件变化时修订先前习得的动作价值。我们将大语言模型视为双选项概率反转学习任务中的序列决策策略,该任务包含三个潜在状态,并由表现标准或超时触发状态转换。我们比较了确定性固定转换周期与增加波动性的随机时间表,以人类数据作为行为参照,评估了DeepSeek-V3.2、Gemini-3和GPT-5.2。各模型在"赢则保持"策略上近乎达到上限,而"输则转换"显著减弱,揭示了正负证据利用的非对称性。DeepSeek-V3.2在反转后表现出极端持续性且习得能力薄弱,而Gemini-3和GPT-5.2适应更迅速,但对损失敏感性仍低于人类。随机转换增强了所有大语言模型的反转特异性持续性,但并未统一降低总获胜次数,表明高聚合收益可与刚性适应并存。分层强化学习拟合揭示了可分离机制:刚性可能源于弱损失学习、策略确定性膨胀或通过反事实抑制导致的价值极化。这些结果推动了在非平稳不确定性下评估大语言模型的反转敏感性诊断指标与波动感知模型的发展。

0
下载
关闭预览

相关内容

当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
重新思考不确定性:大语言模型时代的关键综述与分析
专知会员服务
39+阅读 · 2024年11月20日
迈向大语言模型偏好学习的统一视角综述
专知会员服务
24+阅读 · 2024年9月7日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
【AAAI2024】基于对比上下文学习的自定义语言模型响应
专知会员服务
26+阅读 · 2024年2月1日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
迁移自适应学习最新综述,附21页论文下载
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
5+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
11+阅读 · 6月17日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员