后训练论文 - 专知

会员服务 ·

后训练

Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models

Arxiv

0+阅读 · 3月18日

Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning

Arxiv

0+阅读 · 3月16日

Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models

Arxiv

0+阅读 · 3月14日

Finite Difference Flow Optimization for RL Post-Training of Text-to-Image Models

Arxiv

0+阅读 · 3月13日

IAPO: Information-Aware Policy Optimization for Token-Efficient Reasoning

Arxiv

0+阅读 · 2月22日

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Arxiv

0+阅读 · 3月12日

Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Arxiv

0+阅读 · 2月28日

STRIDE: Post-Training LLMs to Reason and Refine Bio-Sequences via Edit Trajectories

Arxiv

0+阅读 · 3月3日

A Quantitative Characterization of Forgetting in Post-Training

Arxiv

0+阅读 · 3月12日

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

Arxiv

0+阅读 · 2月25日

Leaderboard Incentives: Model Rankings under Strategic Post-Training

Arxiv

0+阅读 · 3月9日

AtomVLA: Scalable Post-Training for Robotic Manipulation via Predictive Latent World Models

Arxiv

0+阅读 · 3月9日

Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training

Arxiv

0+阅读 · 3月2日

ALOE: Action-Level Off-Policy Evaluation for Vision-Language-Action Model Post-Training

Arxiv

0+阅读 · 2月23日

SPOILER: TEE-Shielded DNN Partitioning of On-Device Secure Inference with Poison Learning

Arxiv

0+阅读 · 3月6日

参考链接

微信扫码咨询专知VIP会员