同策略论文 - 专知

会员服务 ·

同策略

OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation

Arxiv

0+阅读 · 6月16日

PowerOPD: Stabilizing On-Policy Distillation with Bounded Power Transformation

Arxiv

0+阅读 · 6月15日

On the Geometry of On-Policy Distillation

Arxiv

0+阅读 · 6月14日

Be My Tutor: On-Policy Co-Distillation for Mutual LLM Improvement via Peer Feedback

Arxiv

0+阅读 · 6月12日

X-Loco: Towards Generalist Humanoid Locomotion Control via Synergetic Policy Distillation

Arxiv

0+阅读 · 6月12日

OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification

Arxiv

0+阅读 · 6月11日

NestRL: A Nested Training Regime for Mutual Adaptation in Human-AI Teaming

Arxiv

0+阅读 · 6月1日

Aletheia: What Makes RLVR For Code Verifiers Tick?

Arxiv

0+阅读 · 6月1日

Lattice Deduction Transformers

Arxiv

0+阅读 · 5月9日

TeleHunt: A Framework and Tool for Efficient Cybercriminal Community Discovery on Telegram

Arxiv

0+阅读 · 6月3日

HORIZON: Recoverability-Governed Curriculum for Physical-Domain Scaling

Arxiv

0+阅读 · 6月3日

Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

Arxiv

0+阅读 · 5月19日

Discourse Diversity in Multi-Turn Empathic Dialogue

Arxiv

0+阅读 · 4月13日

Where-to-Learn: Analytical Policy Gradient Directed Exploration for On-Policy Robotic Reinforcement Learning

Arxiv

0+阅读 · 4月1日

Self-Distilled RLVR

Arxiv

0+阅读 · 4月3日

参考链接

微信扫码咨询专知VIP会员