成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
奖励模型
关注
0
综合
百科
VIP
热门
动态
论文
精华
Diffusion-DRF: Free, Rich, and Differentiable Reward for Video Diffusion Fine-Tuning
Arxiv
0+阅读 · 3月17日
CHARM: Calibrating Reward Models With Chatbot Arena Scores
Arxiv
0+阅读 · 3月17日
GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering
Arxiv
0+阅读 · 3月16日
EditHF-1M: A Million-Scale Rich Human Preference Feedback for Image Editing
Arxiv
0+阅读 · 3月16日
Visual-ERM: Reward Modeling for Visual Equivalence
Arxiv
0+阅读 · 3月13日
Long-form RewardBench: Evaluating Reward Models for Long-form Generation
Arxiv
0+阅读 · 3月13日
AdaBoN: Adaptive Best-of-N Alignment
Arxiv
0+阅读 · 3月13日
Pareto Optimal Code Generation
Arxiv
0+阅读 · 2月24日
Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation
Arxiv
0+阅读 · 3月12日
Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons
Arxiv
0+阅读 · 3月2日
CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction
Arxiv
0+阅读 · 3月4日
What Makes a Reward Model a Good Teacher? An Optimization Perspective
Arxiv
0+阅读 · 2月27日
Invariance-Based Dynamic Regret Minimization
Arxiv
0+阅读 · 3月4日
GRPO is Secretly a Process Reward Model
Arxiv
0+阅读 · 2月20日
Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards
Arxiv
0+阅读 · 2月20日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top