Learn-to-learn on Arbitrary Textual Conditioning: A Hypernetwork-Driven Meta-Gated LLM - 专知论文

会员服务 ·

0

语言模型 · 超网络 · 门控 · 微调 · 大语言模型 ·

Learn-to-learn on Arbitrary Textual Conditioning: A Hypernetwork-Driven Meta-Gated LLM

翻译：学会学习任意文本条件：一种超网络驱动的元门控大语言模型

Luo Ji,Qi Qin,Ningyuan Xi,Teng Chen,Qingqing Gu,Hongyan Li

from arxiv, Accepted by ICML2026

Conventional LLMs may suffer from corpus heterogeneity and subtle condition changes. While finetuning can create the catastrophe forgetting issue, application of meta-learning on LLMs is also limited due to its complexity and scalability. In this paper, we activate the meta-signal of $β$ within the SwiGLU blocks, resulting in a meta-gating mechanism that adaptively adjusts the nonlinearity of FFN. A hypernetwork is employed which dynamically produces $β$ on textual conditions, providing meta-controllability on LLMs. By testing on different condition types such as task, domain, persona, and style, our method outperforms finetuning and meta-learning baselines, and can generalize reasonably on unseen tasks, condition types, or instructions. Our code can be found in https://github.com/AaronJi/MeGan.

翻译：传统大语言模型可能受限于语料异质性和细微条件变化。微调可能导致灾难性遗忘问题，而元学习在大语言模型上的应用也因其复杂性和可扩展性而受限。本文在SwiGLU块内激活了$β$元信号，形成一种自适应调整前馈网络非线性的元门控机制。采用超网络动态生成基于文本条件的$β$，为大语言模型提供了元可控性。通过在任务、领域、角色和风格等不同条件类型上的测试，我们的方法优于微调和元学习基线，并能合理泛化到未见任务、条件类型或指令。我们的代码可在https://github.com/AaronJi/MeGan获取。

0

相关内容

语言模型

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

一文速览大语言模型提示最新进展

一文速览大语言模型提示最新进展

专知会员服务

80+阅读 · 2023年12月24日

什么是从模型中学习(LFM)? 武汉大学等《超越微调: 从模型中学习》综述，详述模型调整、模型蒸馏、模型重用、元学习和模型编辑

什么是从模型中学习(LFM)? 武汉大学等《超越微调: 从模型中学习》综述，详述模型调整、模型蒸馏、模型重用、元学习和模型编辑

专知会员服务

60+阅读 · 2023年10月15日

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

专知会员服务

96+阅读 · 2023年9月16日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

25+阅读 · 2022年5月4日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

专知

61+阅读 · 2019年11月3日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

Meta-Learning 元学习：学会快速学习

Meta-Learning 元学习：学会快速学习

GAN生成式对抗网络

20+阅读 · 2018年12月8日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

神经元网络系统的斑图动力学行为分析及控制

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Learn-To-Learn on Arbitrary Textual Conditioning: A Hypernetwork-Driven Meta-Gated LLM

Arxiv

0+阅读 · 6月16日

Context-Aware RL for Agentic and Multimodal LLMs

Arxiv

0+阅读 · 6月15日

Neural FOXP2 -- Language Specific Neuron Steering for Targeted Language Improvement in LLMs

Arxiv

0+阅读 · 6月10日

Understanding How Enterprises Adopt the Model Context Protocol for LLM-Driven Software Engineering

Arxiv

0+阅读 · 6月8日

MetaSICL: Adapting Audiroty LLM via Meta Speech In-Context Learning

Arxiv

0+阅读 · 5月26日

Specification-Based Code-Text-Code Reengineering for LLM-Mediated Software Evolution

Arxiv

0+阅读 · 5月24日

Leveraging LLMs for Grammar Adaptation: A Study on Metamodel-Grammar Co-Evolution

Arxiv

0+阅读 · 5月20日

Learning, Fast and Slow: Towards LLMs That Adapt Continually

Arxiv

0+阅读 · 5月14日

LLMSYS-HPOBench: Hyperparameter Optimization Benchmark Suite for Real-World LLM Systems

Arxiv

0+阅读 · 5月8日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

20+阅读 · 2023年5月8日

VIP会员

文章信息

相关主题

大语言模型

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

1+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

一文速览大语言模型提示最新进展

一文速览大语言模型提示最新进展

专知会员服务

80+阅读 · 2023年12月24日

什么是从模型中学习(LFM)? 武汉大学等《超越微调: 从模型中学习》综述，详述模型调整、模型蒸馏、模型重用、元学习和模型编辑

什么是从模型中学习(LFM)? 武汉大学等《超越微调: 从模型中学习》综述，详述模型调整、模型蒸馏、模型重用、元学习和模型编辑

专知会员服务

60+阅读 · 2023年10月15日

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

如何训练与微调大型语言模型？这份指南细到技术细节公式，17页pdf

专知会员服务

96+阅读 · 2023年9月16日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

25+阅读 · 2022年5月4日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

专知

61+阅读 · 2019年11月3日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

Meta-Learning 元学习：学会快速学习

Meta-Learning 元学习：学会快速学习

GAN生成式对抗网络

20+阅读 · 2018年12月8日

相关论文

Learn-To-Learn on Arbitrary Textual Conditioning: A Hypernetwork-Driven Meta-Gated LLM

Arxiv

0+阅读 · 6月16日

Context-Aware RL for Agentic and Multimodal LLMs

Arxiv

0+阅读 · 6月15日

Neural FOXP2 -- Language Specific Neuron Steering for Targeted Language Improvement in LLMs

Arxiv

0+阅读 · 6月10日

Understanding How Enterprises Adopt the Model Context Protocol for LLM-Driven Software Engineering

Arxiv

0+阅读 · 6月8日

MetaSICL: Adapting Audiroty LLM via Meta Speech In-Context Learning

Arxiv

0+阅读 · 5月26日

Specification-Based Code-Text-Code Reengineering for LLM-Mediated Software Evolution

Arxiv

0+阅读 · 5月24日

Leveraging LLMs for Grammar Adaptation: A Study on Metamodel-Grammar Co-Evolution

Arxiv

0+阅读 · 5月20日

Learning, Fast and Slow: Towards LLMs That Adapt Continually

Arxiv

0+阅读 · 5月14日

LLMSYS-HPOBench: Hyperparameter Optimization Benchmark Suite for Real-World LLM Systems

Arxiv

0+阅读 · 5月8日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

20+阅读 · 2023年5月8日

相关基金

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

神经元网络系统的斑图动力学行为分析及控制

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员