成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
偏好优化
关注
0
综合
百科
VIP
热门
动态
论文
精华
Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling
Arxiv
0+阅读 · 2月11日
RankGR: Rank-Enhanced Generative Retrieval with Listwise Direct Preference Optimization in Recommendation
Arxiv
0+阅读 · 2月9日
Autoregressive Direct Preference Optimization
Arxiv
0+阅读 · 2月10日
Uni-DPO: A Unified Paradigm for Dynamic Preference Optimization of LLMs
Arxiv
0+阅读 · 2月11日
Letting Tutor Personas "Speak Up" for LLMs: Learning Steering Vectors from Dialogue via Preference Optimization
Arxiv
0+阅读 · 2月7日
Decomposed Direct Preference Optimization for Structure-Based Drug Design
Arxiv
0+阅读 · 2月10日
Curriculum-DPO++: Direct Preference Optimization via Data and Model Curricula for Text-to-Image Generation
Arxiv
0+阅读 · 2月13日
From SFT to RL: Demystifying the Post-Training Pipeline for LLM-based Vulnerability Detection
Arxiv
0+阅读 · 2月15日
HIPPO: Enhancing the Table Understanding Capability of LLMs through Hybrid-Modal Preference Optimization
Arxiv
0+阅读 · 2月15日
Dual-IPO: Dual-Iterative Preference Optimization for Text-to-Video Generation
Arxiv
0+阅读 · 2月10日
InSPO: Unlocking Intrinsic Self-Reflection for LLM Preference Optimization
Arxiv
0+阅读 · 2月9日
How Sampling Shapes LLM Alignment: From One-Shot Optima to Iterative Dynamics
Arxiv
0+阅读 · 2月12日
Beyond Pairwise: Empowering LLM Alignment With Ranked Choice Modeling
Arxiv
0+阅读 · 2月10日
Emotion-Aligned Generation in Diffusion Text to Speech Models via Preference-Guided Optimization
Arxiv
0+阅读 · 2月6日
Mitigating Mismatch within Reference-based Preference Optimization
Arxiv
0+阅读 · 2月12日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top