奖励模型论文 - 专知

会员服务 ·

奖励模型

Diffusion-DRF: Free, Rich, and Differentiable Reward for Video Diffusion Fine-Tuning

Arxiv

0+阅读 · 3月17日

CHARM: Calibrating Reward Models With Chatbot Arena Scores

Arxiv

0+阅读 · 3月17日

GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

Arxiv

0+阅读 · 3月16日

EditHF-1M: A Million-Scale Rich Human Preference Feedback for Image Editing

Arxiv

0+阅读 · 3月16日

Visual-ERM: Reward Modeling for Visual Equivalence

Arxiv

0+阅读 · 3月13日

Long-form RewardBench: Evaluating Reward Models for Long-form Generation

Arxiv

0+阅读 · 3月13日

AdaBoN: Adaptive Best-of-N Alignment

AdaBoN: Adaptive Best-of-N Alignment

Arxiv

0+阅读 · 3月13日

Pareto Optimal Code Generation

Arxiv

0+阅读 · 2月24日

Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Arxiv

0+阅读 · 3月12日

Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons

Arxiv

0+阅读 · 3月2日

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Arxiv

0+阅读 · 3月4日

What Makes a Reward Model a Good Teacher? An Optimization Perspective

Arxiv

0+阅读 · 2月27日

Invariance-Based Dynamic Regret Minimization

Arxiv

0+阅读 · 3月4日

GRPO is Secretly a Process Reward Model

Arxiv

0+阅读 · 2月20日

Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards

Arxiv

0+阅读 · 2月20日

参考链接

微信扫码咨询专知VIP会员