Building on the affective dream-replay reinforcement learning framework of CosmoCore, we introduce CosmoCore-Evo, an extension that incorporates evolutionary algorithms to enhance adaptability and novelty in code generation tasks. Inspired by anthropological aspects of human evolution, such as natural selection and adaptation in early hominids, CosmoCore-Evo treats RL trajectories as ``genomes'' that undergo mutation and selection during the nocturnal replay phase. This mechanism allows agents to break free from trained patterns, fostering emergent behaviors and improved performance in distribution-shifted environments, such as changing APIs or novel libraries. We augment the Dream Queue with evolutionary operations, including mutation of high-fitness trajectories and enterprise-tuned fitness functions that incorporate efficiency, compliance, and scalability metrics. Evaluated on extended benchmarks including HumanEval variants with shifts, BigCodeBench, and a custom PySpark pipeline simulation, CosmoCore-Evo achieves up to 35% higher novelty in solutions and 25% faster adaptation compared to the original CosmoCore and baselines like PPO and REAMER. Ablations confirm the role of evolutionary components in bridging the sentient gap for LLM agents. Code for replication, including a toy simulation, is provided.


翻译:基于CosmoCore的情感梦境回放强化学习框架,我们提出了CosmoCore-Evo,这是一个通过引入进化算法来增强代码生成任务适应性与新颖性的扩展版本。受人类进化中自然选择与早期人科动物适应等人类学视角的启发,CosmoCore-Evo将强化学习轨迹视为“基因组”,在夜间回放阶段经历突变与选择。该机制使智能体能够突破已训练模式的限制,在分布偏移的环境(如变化的API或新库)中催生涌现行为并提升性能。我们通过进化操作增强了梦境队列,包括对高适应度轨迹的突变,以及融合了效率、合规性与可扩展性指标的企业级调优适应度函数。在扩展基准测试(包括带偏移的HumanEval变体、BigCodeBench以及自定义的PySpark流水线模拟)上的评估表明,相较于原始CosmoCore以及PPO、REAMER等基线方法,CosmoCore-Evo实现了高达35%的解决方案新颖性提升和25%的更快适应速度。消融实验证实了进化组件在弥合大语言模型智能体感知差距中的作用。我们提供了包含玩具模拟在内的可复现代码。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
【NeurIPS2023】跨情境课程设计的Transformer智能体
专知会员服务
27+阅读 · 2023年10月14日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员