Instruction Tuning (IT) has been proven to be an effective approach to unlock the powerful capabilities of large language models (LLMs). Recent studies indicate that excessive IT data can degrade LLMs performance, while carefully selecting a small subset of high-quality IT data can significantly enhance their capabilities. Therefore, identifying the most efficient subset data from the IT dataset to effectively develop either specific or general abilities in LLMs has become a critical challenge. To address this, we propose a novel and efficient framework called NAIT. NAIT evaluates the impact of IT data on LLMs performance by analyzing the similarity of neuron activation patterns between the IT dataset and the target domain capability. Specifically, NAIT captures neuron activation patterns from in-domain datasets of target domain capabilities to construct reusable and transferable neuron activation features. It then evaluates and selects optimal samples based on the similarity between candidate samples and the expected activation features of the target capabilities. Experimental results show that training on the 10\% Alpaca-GPT4 IT data subset selected by NAIT consistently outperforms methods that rely on external advanced models or uncertainty-based features across various tasks. Our findings also reveal the transferability of neuron activation features across different capabilities of LLMs. In particular, IT data with more logical reasoning and programmatic features possesses strong general transferability, enabling models to develop stronger capabilities across multiple tasks, while a stable core subset of data is sufficient to consistently activate fundamental model capabilities and universally improve performance across diverse tasks.


翻译:指令微调已被证明是解锁大语言模型强大能力的有效途径。近期研究表明,过量的指令微调数据会降低大语言模型的性能,而精心选择少量高质量指令微调数据则能显著提升其能力。因此,如何从指令微调数据集中识别最高效的子集数据,以有效开发大语言模型的特定或通用能力,已成为关键挑战。为此,我们提出了一种新颖高效的框架NAIT。该框架通过分析指令微调数据集与目标领域能力之间神经元激活模式的相似性,评估指令微调数据对大语言模型性能的影响。具体而言,NAIT从目标领域能力的域内数据集中捕获神经元激活模式,构建可复用、可迁移的神经元激活特征;随后基于候选样本与目标能力预期激活特征之间的相似性进行评估与样本选择。实验结果表明,使用NAIT选择的10% Alpaca-GPT4指令微调数据子集进行训练,在多项任务中均持续优于依赖外部先进模型或基于不确定性特征的方法。我们的研究还揭示了神经元激活特征在大语言模型不同能力间的可迁移性:特别地,具有更强逻辑推理与程序特征的指令微调数据具备显著的通泛迁移能力,能使模型在多项任务中发展出更强能力;而一个稳定的核心数据子集足以持续激活模型的基础能力,并在多样化任务中普遍提升性能。

0
下载
关闭预览

相关内容

大语言模型在规划与调度问题上的应用
专知会员服务
52+阅读 · 2025年1月12日
大语言模型训练数据
专知会员服务
72+阅读 · 2024年11月22日
接入大模型的眼睛:一文纵览多模态指令
专知会员服务
84+阅读 · 2023年9月28日
《大型语言模型指令调优》综述
专知会员服务
74+阅读 · 2023年8月27日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Instruction Tuning for Large Language Models: A Survey
Arxiv
15+阅读 · 2023年8月21日
VIP会员
最新内容
美国军方使用的10种反无人机武器(2026年更新)
专知会员服务
9+阅读 · 今天4:07
认知战与交战性质的改变:神经战略视角
专知会员服务
7+阅读 · 5月8日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员