Instruction-following is a fundamental ability of Large Language Models (LLMs), requiring their generated outputs to follow multiple constraints imposed in input instructions. Numerous studies have attempted to enhance this ability through preference optimization or reinforcement learning based on reward signals from LLM-as-a-Judge. However, existing evaluation models for instruction-following still possess many deficiencies, such as substantial costs and unreliable assessments. To this end, we propose IF-CRITIC, an LLM critic for fine-grained, efficient, and reliable instruction-following evaluation. We first develop a checklist generator to decompose instructions and generate constraint checklists. With the assistance of the checklists, we collect high-quality critique training data through a multi-stage critique filtering mechanism and employ a constraint-level preference optimization method to train IF-CRITIC. Extensive experiments show that the evaluation performance of IF-CRITIC can beat strong LLM-as-a-Judge baselines, including o4-mini and Gemini-3-Pro. With the reward signals provided by IF-CRITIC, LLMs can achieve substantial performance gains in instruction-following optimization under lower computational overhead compared to strong LLM critic baselines.


翻译:指令遵循是大语言模型(LLM)的一项基本能力,要求其生成的输出遵循输入指令中施加的多个约束。大量研究尝试基于来自“LLM即评判者”的奖励信号,通过偏好优化或强化学习来提升此能力。然而,现有的指令遵循评估模型仍存在诸多不足,例如成本高昂和评估不可靠。为此,我们提出IF-CRITIC,一个用于细粒度、高效且可靠的指令遵循评估的LLM评判器。我们首先开发了一个检查清单生成器,用于分解指令并生成约束检查清单。借助检查清单,我们通过多阶段评判过滤机制收集高质量的评判训练数据,并采用约束级偏好优化方法来训练IF-CRITIC。大量实验表明,IF-CRITIC的评估性能能够超越包括o4-mini和Gemini-3-Pro在内的强大“LLM即评判者”基线模型。在IF-CRITIC提供的奖励信号指导下,与强大的LLM评判器基线相比,LLM能够在更低计算开销下实现指令遵循优化方面的显著性能提升。

0
下载
关闭预览

相关内容

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型
专知会员服务
18+阅读 · 2024年4月10日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员