Can lifetime learning expand behavioral diversity over evolutionary time, rather than collapsing it? Prior theory predicts that plasticity reduces variance by buffering organisms against environmental noise. We test this in a competitive domain: chess agents with eight NEAT-evolved neural modules, Hebbian within-game plasticity, and a desirability-domain signal chain with imagination. Across 10~seeds per Hebbian condition, a variance crossover emerges: Hebbian ON starts with lower cross-seed variance than OFF, then surpasses it at generation~34. The crossover trend is monotonic (\r{ho} = 0.91, p < 10^{-6): plasticity's effect on behavioral variance reverses over evolutionary time, initially compressing diversity (consistent with prior predictions) then expanding it as evolved Perception differences are amplified through imagination -- a feedback loop that mutation alone cannot sustain. The result is structured behavioral divergence: evolved agents select different moves on the same positions (62\% disagreement), develop distinct opening repertoires, piece preferences, and game lengths. These are not different sampling policies -- they are reproducible behavioral signatures (ICC > 0.8) with interpretable signal chain configurations. Three regimes appear depending on opponent type: exploration (Hebbian ON, heterogeneous opponent), lottery (Hebbian OFF, elitism lock-in), and transparent (same-model opponent, brain self-erasure). The transparent regime generates a falsifiable prediction: self-play systems may systematically suppress behavioral diversity by eliminating the heterogeneity that personality requires. \textbf{Keywords: Baldwin Effect, neuroevolution, NEAT, Hebbian learning, chess, cognitive architecture, personality emergence, imagination


翻译:毕生学习能否在进化时间尺度上扩展而非收缩行为多样性?先前理论预测,可塑性通过缓冲环境噪声来降低变异度。我们在竞争性领域对此进行检验:采用八个NEAT进化神经模块、赫布型局内可塑性以及具备想象能力的期望-域信号链的象棋智能体。在每种赫布条件下进行10次随机种子实验后,发现方差交叉现象:赫布开启状态初始的跨种子方差低于关闭状态,但在第34代后超越后者。该交叉趋势呈单调性(ρ=0.91, p<10⁻⁶):可塑性对行为方差的影响随进化时间发生逆转——初期压缩多样性(与先前预测一致),随后因进化感知差异通过想象(突变无法单独维持的正反馈回路)被放大而扩展多样性。最终形成结构化的行为分化:进化智能体在相同棋局中选择不同走法(62%分歧度),发展出独特开局库、棋子偏好及对局时长。这并非不同采样策略——而是具有可解释信号链构型的可复现行为特征(ICC>0.8)。根据对手类型出现三种机制:探索期(赫布开启,异质对手)、抽奖期(赫布关闭,精英锁定期)与透明期(同模型对手,大脑自擦除期)。透明期生成可证伪预测:自我对弈系统可能通过消除个性所需的异质性而系统性地抑制行为多样性。关键词:鲍德温效应、神经进化、NEAT、赫布学习、国际象棋、认知架构、个性涌现、想象

0
下载
关闭预览

相关内容

【新书】神经进化:释放 AI 智能体设计的创造力, 484页pdf
专知会员服务
42+阅读 · 2025年11月23日
多智能体博弈学习研究进展
专知会员服务
90+阅读 · 2024年5月5日
【干货书】基于智能体的演化博弈动力学,207页pdf
专知会员服务
105+阅读 · 2023年4月3日
多智能体博弈、学习与控制
专知会员服务
128+阅读 · 2023年1月18日
专知会员服务
41+阅读 · 2021年3月3日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
【AAAI专题】论文分享:以生物可塑性为核心的类脑脉冲神经网络
中国科学院自动化研究所
15+阅读 · 2018年1月23日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
综述 | OPSD:大语言模型的在线策略自蒸馏
专知会员服务
3+阅读 · 6月1日
帕兰蒂尔Maven:军事人工智能的新纪元
专知会员服务
7+阅读 · 6月1日
超越网格:作战环境对炮兵的影响
专知会员服务
3+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
6+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
7+阅读 · 5月30日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员