成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
奖励模型
关注
0
综合
百科
VIP
热门
动态
论文
精华
The Bidirectional Process Reward Model
Arxiv
0+阅读 · 1月6日
P-Check: Advancing Personalized Reward Model via Learning to Generate Dynamic Checklist
Arxiv
0+阅读 · 1月6日
VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation
Arxiv
0+阅读 · 1月5日
GIFT: Group-relative Implicit Fine Tuning Integrates GRPO with DPO and UNA
Arxiv
0+阅读 · 1月5日
Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Arxiv
0+阅读 · 1月5日
RoboReward: General-Purpose Vision-Language Reward Models for Robotics
Arxiv
0+阅读 · 1月2日
TIM-PRM: Verifying multimodal reasoning with Tool-Integrated PRM
Arxiv
0+阅读 · 2025年12月31日
MUSIC: MUlti-Step Instruction Contrast for Multi-Turn Reward Models
Arxiv
0+阅读 · 2025年12月31日
Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation
Arxiv
0+阅读 · 2025年12月29日
Eliminating Inductive Bias in Reward Models with Information-Theoretic Guidance
Arxiv
0+阅读 · 2025年12月29日
The Reward Model Selection Crisis in Personalized Alignment
Arxiv
0+阅读 · 2025年12月28日
SWE-RM: Execution-free Feedback For Software Engineering Agents
Arxiv
0+阅读 · 2025年12月26日
Multi-Agent Collaborative Reward Design for Enhancing Reasoning in Reinforcement Learning
Arxiv
0+阅读 · 2025年12月25日
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models
Arxiv
0+阅读 · 2025年12月18日
Video Generation Models Are Good Latent Reward Models
Arxiv
0+阅读 · 2025年12月23日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top