偏好优化论文 - 专知

会员服务 ·

偏好优化

PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization

Arxiv

0+阅读 · 3月16日

GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

Arxiv

0+阅读 · 3月16日

PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization

Arxiv

0+阅读 · 3月13日

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Arxiv

0+阅读 · 3月3日

RAD-DPO: Robust Adaptive Denoising Direct Preference Optimization for Generative Retrieval in E-commerce

Arxiv

0+阅读 · 2月27日

Decoupling Strategy and Execution in Task-Focused Dialogue via Goal-Oriented Preference Optimization

Arxiv

0+阅读 · 2月20日

Preference Packing: Efficient Preference Optimization for Large Language Models

Arxiv

0+阅读 · 2月27日

OSPO: Object-Centric Self-Improving Preference Optimization for Text-to-Image Generation

Arxiv

0+阅读 · 3月5日

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

Arxiv

0+阅读 · 3月6日

Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling

Arxiv

0+阅读 · 2月11日

RankGR: Rank-Enhanced Generative Retrieval with Listwise Direct Preference Optimization in Recommendation

Arxiv

0+阅读 · 2月9日

Autoregressive Direct Preference Optimization

Arxiv

0+阅读 · 2月10日

Uni-DPO: A Unified Paradigm for Dynamic Preference Optimization of LLMs

Arxiv

0+阅读 · 2月11日

Letting Tutor Personas "Speak Up" for LLMs: Learning Steering Vectors from Dialogue via Preference Optimization

Arxiv

0+阅读 · 2月7日

Decomposed Direct Preference Optimization for Structure-Based Drug Design

Arxiv

0+阅读 · 2月10日

参考链接

微信扫码咨询专知VIP会员