成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
后训练
关注
1
综合
百科
VIP
热门
动态
论文
精华
Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models
Arxiv
0+阅读 · 3月18日
Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning
Arxiv
0+阅读 · 3月16日
Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models
Arxiv
0+阅读 · 3月14日
Finite Difference Flow Optimization for RL Post-Training of Text-to-Image Models
Arxiv
0+阅读 · 3月13日
IAPO: Information-Aware Policy Optimization for Token-Efficient Reasoning
Arxiv
0+阅读 · 2月22日
Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training
Arxiv
0+阅读 · 3月12日
Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment
Arxiv
0+阅读 · 2月28日
STRIDE: Post-Training LLMs to Reason and Refine Bio-Sequences via Edit Trajectories
Arxiv
0+阅读 · 3月3日
A Quantitative Characterization of Forgetting in Post-Training
Arxiv
0+阅读 · 3月12日
GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL
Arxiv
0+阅读 · 2月25日
Leaderboard Incentives: Model Rankings under Strategic Post-Training
Arxiv
0+阅读 · 3月9日
AtomVLA: Scalable Post-Training for Robotic Manipulation via Predictive Latent World Models
Arxiv
0+阅读 · 3月9日
Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training
Arxiv
0+阅读 · 3月2日
ALOE: Action-Level Off-Policy Evaluation for Vision-Language-Action Model Post-Training
Arxiv
0+阅读 · 2月23日
SPOILER: TEE-Shielded DNN Partitioning of On-Device Secure Inference with Poison Learning
Arxiv
0+阅读 · 3月6日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top