Complex claim verification requires decomposing sentences into verifiable subclaims, yet existing methods struggle to align decomposition quality with verification performance. We propose a reinforcement learning (RL) approach that jointly optimizes decomposition quality and verifier alignment using Group Relative Policy Optimization (GRPO). Our method integrates: (i) structured sequential reasoning; (ii) supervised finetuning on teacher-distilled exemplars; and (iii) a multi-objective reward balancing format compliance, verifier alignment, and decomposition quality. Across six evaluation settings, our trained 8B decomposer improves downstream verification performance to (71.75%) macro-F1, outperforming prompt-based approaches ((+1.99), (+6.24)) and existing RL methods ((+5.84)). Human evaluation confirms the high quality of the generated subclaims. Our framework enables smaller language models to achieve state-of-the-art claim verification by jointly optimising for verification accuracy and decomposition quality.


翻译:复杂声明验证需要将句子分解为可验证的子声明,然而现有方法难以将分解质量与验证性能对齐。本文提出一种强化学习方法,通过群体相对策略优化联合优化分解质量与验证器对齐。我们的方法整合了:(i)结构化序列推理;(ii)基于教师蒸馏范例的监督微调;(iii)平衡格式合规性、验证器对齐与分解质量的多目标奖励机制。在六种评估场景中,我们训练的80亿参数分解器将下游验证性能提升至宏观F1值71.75%,显著优于基于提示的方法(提升1.99和6.24个百分点)及现有强化学习方法(提升5.84个百分点)。人工评估证实了生成子声明的高质量特性。本框架通过联合优化验证准确性与分解质量,使小型语言模型能够实现最先进的声明验证性能。

0
下载
关闭预览

相关内容

强化学习可解释性基础问题探索和方法综述
专知会员服务
92+阅读 · 2022年1月16日
专知会员服务
44+阅读 · 2021年7月1日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
10+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
7+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员