监督微调论文 - 专知

会员服务 ·

监督微调

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

Arxiv

0+阅读 · 3月17日

Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models

Arxiv

0+阅读 · 3月14日

GRPO and Reflection Reward for Mathematical Reasoning in Large Language Models

Arxiv

0+阅读 · 3月14日

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Arxiv

0+阅读 · 3月3日

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

Arxiv

0+阅读 · 3月11日

TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training

Arxiv

0+阅读 · 3月2日

KLong: Training LLM Agent for Extremely Long-horizon Tasks

KLong: Training LLM Agent for Extremely Long-horizon Tasks

Arxiv

0+阅读 · 2月19日

Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale

Arxiv

0+阅读 · 2月17日

Towards On-Policy SFT: Distribution Discriminant Theory and its Applications in LLM Training

Arxiv

0+阅读 · 2月12日

Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels

Arxiv

0+阅读 · 2月10日

Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

Arxiv

0+阅读 · 2月11日

Supervised Fine-Tuning Needs to Unlock the Potential of Token Priority

Arxiv

0+阅读 · 2月9日

SED-SFT: Selectively Encouraging Diversity in Supervised Fine-Tuning

Arxiv

0+阅读 · 2月7日

Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

Arxiv

0+阅读 · 2月16日

Offline RL by Reward-Weighted Fine-Tuning for Conversation Optimization

Arxiv

0+阅读 · 2月16日

参考链接

微信扫码咨询专知VIP会员