博弈强化学习论文 - 专知

会员服务 ·

博弈强化学习

博弈强化学习

MARLIN: Multi-Agent Game-Theoretic Reinforcement Learning for Sustainable LLM Inference in Cloud Datacenters

Arxiv

0+阅读 · 5月13日

SPELL: Self-Play Reinforcement Learning for Evolving Long-Context Language Models

Arxiv

0+阅读 · 2月18日

One Model, All Roles: Multi-Turn, Multi-Agent Self-Play Reinforcement Learning for Conversational Social Intelligence

Arxiv

0+阅读 · 2月3日

TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

Arxiv

0+阅读 · 1月30日

SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data

Arxiv

0+阅读 · 1月25日

SPELL: Self-Play Reinforcement Learning for evolving Long-Context Language Models

Arxiv

0+阅读 · 2025年12月22日

Superhuman AI for Stratego Using Self-Play Reinforcement Learning and Test-Time Search

Arxiv

0+阅读 · 2025年11月10日

参考链接

微信扫码咨询专知VIP会员