成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
强化微调
关注
1
综合
百科
VIP
热门
动态
论文
精华
TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models
Arxiv
0+阅读 · 2月17日
Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation
Arxiv
0+阅读 · 2月11日
Towards Long-Lived Robots: Continual Learning VLA Models via Reinforcement Fine-Tuning
Arxiv
0+阅读 · 2月11日
ConsistentRFT: Reducing Visual Hallucinations in Flow-based Reinforcement Fine-Tuning
Arxiv
0+阅读 · 2月3日
Efficient Reinforcement Finetuning via Adaptive Curriculum Learning
Arxiv
0+阅读 · 2月2日
On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models
Arxiv
0+阅读 · 2月3日
BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning
Arxiv
0+阅读 · 1月30日
Reinforcement Fine-Tuning for History-Aware Dense Retriever in RAG
Arxiv
0+阅读 · 2月3日
RPO:Reinforcement Fine-Tuning with Partial Reasoning Optimization
Arxiv
0+阅读 · 1月27日
Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training
Arxiv
0+阅读 · 1月21日
ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models
Arxiv
0+阅读 · 1月29日
Weather-R1: Logically Consistent Reinforcement Fine-Tuning for Multimodal Reasoning in Meteorology
Arxiv
0+阅读 · 1月20日
PlannerRFT: Reinforcing Diffusion Planners through Closed-Loop and Sample-Efficient Fine-Tuning
Arxiv
0+阅读 · 1月19日
Continual GUI Agents
Arxiv
0+阅读 · 1月28日
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
Arxiv
0+阅读 · 1月3日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top