强化微调论文 - 专知

会员服务 ·

强化微调

Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning

Arxiv

0+阅读 · 4月23日

DreamPlan: Efficient Reinforcement Fine-Tuning of Vision-Language Planners via Video World Models

Arxiv

0+阅读 · 3月17日

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

Arxiv

0+阅读 · 2月28日

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Arxiv

0+阅读 · 2月17日

Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

Arxiv

0+阅读 · 2月11日

Towards Long-Lived Robots: Continual Learning VLA Models via Reinforcement Fine-Tuning

Arxiv

0+阅读 · 2月11日

ConsistentRFT: Reducing Visual Hallucinations in Flow-based Reinforcement Fine-Tuning

Arxiv

0+阅读 · 2月3日

Efficient Reinforcement Finetuning via Adaptive Curriculum Learning

Arxiv

0+阅读 · 2月2日

On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

Arxiv

0+阅读 · 2月3日

BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning

Arxiv

0+阅读 · 1月30日

Reinforcement Fine-Tuning for History-Aware Dense Retriever in RAG

Arxiv

0+阅读 · 2月3日

RPO:Reinforcement Fine-Tuning with Partial Reasoning Optimization

Arxiv

0+阅读 · 1月27日

Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training

Arxiv

0+阅读 · 1月21日

ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models

Arxiv

0+阅读 · 1月29日

Weather-R1: Logically Consistent Reinforcement Fine-Tuning for Multimodal Reasoning in Meteorology

Arxiv

0+阅读 · 1月20日

参考链接

微信扫码咨询专知VIP会员