Improving the OOD Performance of Closed-Source LLMs on NLI Through Strategic Data Selection - 专知论文

会员服务 ·

0

自然语言推理 · 语言模型 · 微调 · 鲁棒 · 样本 ·

Improving the OOD Performance of Closed-Source LLMs on NLI Through Strategic Data Selection

翻译：提升闭源大语言模型在自然语言推理任务上的分布外性能：基于策略性数据选择的方法

Joe Stacey,Lisa Alazraki,Aran Ubhi,Beyza Ermis,Aaron Mueller,Marek Rei

from arxiv, Accepted at EACL Findings 2026

We investigate the robustness of fine-tuned Large Language Models (LLMs) for the task of Natural Language Inference (NLI), finding that the in-distribution gains from fine-tuning correspond to a large drop in out-of-distribution (OOD) performance. Despite the widespread use of closed-source LLMs, there are no robustness mitigation methods that work under their API fine-tuning constraints. Existing methods to improve robustness typically require changing the fine-tuning process or large-scale data augmentation, methods that are infeasible or cost prohibitive for closed-source models. To address this, we propose strategically selecting the NLI fine-tuning data, prioritising more complex examples or replacing existing training examples with LLM-generated data. Prioritising more complex training examples improves performance on challenging OOD NLI datasets, while training with synthetic data leads to substantial improvements on easier OOD datasets. We find that synthetic examples are often too simple, and by prompting LLMs to create more complex synthetic data we can improve performance on both easy and challenging OOD datasets. Finally, we show that recent autoregressive LLMs are substantially more robust to distributional shifts compared to encoder models, and should be a preferred baseline for future research.

翻译：本研究探讨了针对自然语言推理任务进行微调的大语言模型的鲁棒性，发现微调带来的分布内性能提升往往伴随着分布外性能的大幅下降。尽管闭源大语言模型已被广泛使用，但目前尚无能在其API微调约束条件下有效缓解鲁棒性下降的方法。现有提升鲁棒性的方法通常需要改变微调流程或进行大规模数据增强，这些方法对于闭源模型而言要么不可行，要么成本过高。为解决此问题，我们提出一种策略性选择自然语言推理微调数据的方法，优先选择更复杂的训练样本，或利用大语言模型生成的数据替换原有训练样本。优先选择更复杂的训练样本能提升模型在具有挑战性的分布外自然语言推理数据集上的性能，而使用合成数据进行训练则能在较简单的分布外数据集上带来显著改进。我们发现合成样本往往过于简单，通过提示大语言模型生成更复杂的合成数据，我们可以在简单和困难的分布外数据集上同时实现性能提升。最后，我们证明相较于编码器模型，近期出现的自回归大语言模型对分布偏移具有显著更强的鲁棒性，应作为未来研究优先考虑的基线模型。

0

相关内容

自然语言推理

自然语言推理

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

大型语言模型推理增强外部知识：综述

大型语言模型推理增强外部知识：综述

专知会员服务

38+阅读 · 2025年6月2日

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

高效推理的集约化探索：大语言模型推理优化综述

高效推理的集约化探索：大语言模型推理优化综述

专知会员服务

33+阅读 · 2025年4月1日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

64+阅读 · 2024年4月23日

GPT系列大模型在自然语言处理任务中的鲁棒性研究

GPT系列大模型在自然语言处理任务中的鲁棒性研究

专知会员服务

30+阅读 · 2024年3月22日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

开放知识图谱

10+阅读 · 2019年10月29日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

专知

12+阅读 · 2018年7月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

基于概率粗糙集模型的属性约简方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Closing the Distribution Gap in Adversarial Training for LLMs

Arxiv

0+阅读 · 2月16日

Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay

Arxiv

0+阅读 · 2月16日

Differentially Private and Communication Efficient Large Language Model Split Inference via Stochastic Quantization and Soft Prompt

Arxiv

0+阅读 · 2月12日

Improving the Robustness of Large Language Models for Code Tasks via Fine-tuning with Perturbed Data

Arxiv

0+阅读 · 2月11日

Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization

Arxiv

0+阅读 · 2月11日

Interpreting and Controlling LLM Reasoning through Integrated Policy Gradient

Arxiv

0+阅读 · 2月2日

Learning to Reason in LLMs by Expectation Maximization

Arxiv

1+阅读 · 1月31日

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution

Arxiv

0+阅读 · 1月28日

Identifying and Transferring Reasoning-Critical Neurons: Improving LLM Inference Reliability via Activation Steering

Arxiv

0+阅读 · 1月27日

Group Distributionally Robust Optimization-Driven Reinforcement Learning for LLM Reasoning

Arxiv

0+阅读 · 1月27日

VIP会员

文章信息

相关主题

自然语言推理

最新内容

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

0+阅读 · 19分钟前

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

0+阅读 · 22分钟前

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

5+阅读 · 今天11:13

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

4+阅读 · 今天9:19

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

5+阅读 · 今天9:00

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

4+阅读 · 今天8:27

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

2+阅读 · 今天7:57

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

3+阅读 · 今天7:53

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

2+阅读 · 今天7:44

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

5+阅读 · 今天7:04

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

8+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

6+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

5+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

5+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

9+阅读 · 今天2:37

相关VIP内容

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

大型语言模型推理增强外部知识：综述

大型语言模型推理增强外部知识：综述

专知会员服务

38+阅读 · 2025年6月2日

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

高效推理的集约化探索：大语言模型推理优化综述

高效推理的集约化探索：大语言模型推理优化综述

专知会员服务

33+阅读 · 2025年4月1日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大型语言模型高效推理综述

大型语言模型高效推理综述

专知会员服务

64+阅读 · 2024年4月23日

GPT系列大模型在自然语言处理任务中的鲁棒性研究

GPT系列大模型在自然语言处理任务中的鲁棒性研究

专知会员服务

30+阅读 · 2024年3月22日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体系统：从经典范式到大基础模型驱动的未来

电子战革命：塑造战场的十年突破（2015–2025）

【CMU博士论文】物理世界的视觉感知与深度理解

伊朗战争停火期间美军关键弹药状况分析

相关资讯

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

开放知识图谱

10+阅读 · 2019年10月29日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

专知

12+阅读 · 2018年7月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关论文

Closing the Distribution Gap in Adversarial Training for LLMs

Arxiv

0+阅读 · 2月16日

Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay

Arxiv

0+阅读 · 2月16日

Differentially Private and Communication Efficient Large Language Model Split Inference via Stochastic Quantization and Soft Prompt

Arxiv

0+阅读 · 2月12日

Improving the Robustness of Large Language Models for Code Tasks via Fine-tuning with Perturbed Data

Arxiv

0+阅读 · 2月11日

Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization

Arxiv

0+阅读 · 2月11日

Interpreting and Controlling LLM Reasoning through Integrated Policy Gradient

Arxiv

0+阅读 · 2月2日

Learning to Reason in LLMs by Expectation Maximization

Arxiv

1+阅读 · 1月31日

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution

Arxiv

0+阅读 · 1月28日

Identifying and Transferring Reasoning-Critical Neurons: Improving LLM Inference Reliability via Activation Steering

Arxiv

0+阅读 · 1月27日

Group Distributionally Robust Optimization-Driven Reinforcement Learning for LLM Reasoning

Arxiv

0+阅读 · 1月27日

相关基金

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

基于概率粗糙集模型的属性约简方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员