训练效率论文 - 专知

会员服务 ·

训练效率

GD$^2$PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization

Arxiv

0+阅读 · 6月15日

sGPO: Trading Inference FLOPs for Training Efficiency in RLVR

Arxiv

0+阅读 · 6月7日

Demystifying Data Organization for Enhanced LLM Training

Arxiv

0+阅读 · 5月28日

Coherent Audio-Visual Editing via Conditional Audio Generation Following Video Edits

Arxiv

0+阅读 · 3月16日

Android Coach: Improve Online Agentic Training Efficiency with Single State Multiple Actions

Arxiv

0+阅读 · 4月8日

BabyLM Turns 4: Call for Papers for the 2026 BabyLM Workshop

Arxiv

0+阅读 · 2月23日

Learning from Complexity: Exploring Dynamic Sample Pruning of Spatio-Temporal Training

Arxiv

0+阅读 · 2月22日

Learning from Complexity: Exploring Dynamic Sample Pruning of Spatio-Temporal Training

Arxiv

0+阅读 · 3月2日

Di3PO - Diptych Diffusion DPO for Targeted Improvements in Image Generation

Arxiv

0+阅读 · 2月19日

GLM-5: from Vibe Coding to Agentic Engineering

Arxiv

1+阅读 · 2月17日

ActionCodec: What Makes for Good Action Tokenizers

Arxiv

0+阅读 · 2月17日

Data Science and Technology Towards AGI Part I: Tiered Data Management

Arxiv

0+阅读 · 2月9日

Cross-Attention Speculative Decoding

Arxiv

0+阅读 · 2月11日

rePIRL: Learn PRM with Inverse RL for LLM Reasoning

Arxiv

0+阅读 · 2月8日

ESPO: Entropy Importance Sampling Policy Optimization

Arxiv

0+阅读 · 2月15日

参考链接

微信扫码咨询专知VIP会员