推理优化论文 - 专知

会员服务 ·

推理优化

A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization

Arxiv

0+阅读 · 6月15日

AgenticRec: A Recommendation-Oriented Agentic Framework with Progressive Tool-Integrated Reasoning Optimization

Arxiv

0+阅读 · 6月14日

DPUConfig: Optimizing ML Inference in FPGAs Using Reinforcement Learning

Arxiv

0+阅读 · 2月13日

AERO: Autonomous Evolutionary Reasoning Optimization via Endogenous Dual-Loop Feedback

Arxiv

0+阅读 · 2月3日

RPO:Reinforcement Fine-Tuning with Partial Reasoning Optimization

Arxiv

0+阅读 · 1月27日

Dynamic Thinking-Token Selection for Efficient Reasoning in Large Reasoning Models

Arxiv

0+阅读 · 1月26日

RPRO: Ranked Preference Reinforcement Optimization for Enhancing Medical QA and Diagnostic Reasoning

Arxiv

0+阅读 · 2025年11月15日

参考链接

微信扫码咨询专知VIP会员