MetaSICL: Adapting Audiroty LLM via Meta Speech In-Context Learning - 专知论文

会员服务 ·

0

上下文 · 上下文学习 · 适配 · 语言模型 · 低资源 ·

MetaSICL: Adapting Audiroty LLM via Meta Speech In-Context Learning

翻译：MetaSICL：通过元语音上下文学习适配听觉大语言模型

Haolong Zheng,Siyin Wang,Zengrui Jin,Mark Hasegawa-Johnson

Auditory Large Language Models (LLMs) have demonstrated strong performance across a wide range of speech and audio understanding tasks. Nevertheless, they often struggle when applied to low-resource tasks. In case in-domain labeled data are scarce or mismatched with the true test distribution, direct fine-tuning can be brittle. In-Context Learning (ICL) provides a training-free, inference-time solution by adapting auditory LLMs through conditioning on a few in-domain demonstrations. In this work, we first show that $\textit{Vanilla ICL}$, improves zero-shot performance across diverse speech and audio tasks for selected models which suggest that this ICL adaptation capability can be generalized to multimodal setting. Building on this, we propose $\textbf{Meta Speech In-Context Learning (MetaSICL)}$, a post-training recipe utilizes only high resource speech data from various tasks intending to strengthen model's in-context learning capability. Experiments indicate our proposed method outperforms direct fine-tuning in low-resource scenario.

翻译：听觉大语言模型在广泛的语音与音频理解任务中展现出强大的性能。然而，当应用于低资源任务时，它们往往面临困难。若领域内标注数据稀缺或与真实测试分布不匹配，直接微调可能具有脆弱性。上下文学习提供了一种无需训练、推理时适配的解决方案，通过基于少量领域内演示示例对听觉大语言模型进行条件化调整。在本工作中，我们首先证明，$\textit{朴素上下文学习}$能够提升所选模型在多种语音与音频任务上的零样本性能，这表明这种上下文学习适配能力可推广至多模态场景。在此基础上，我们提出$\textbf{元语音上下文学习（MetaSICL）}$，一种利用来自不同任务的高资源语音数据来增强模型上下文学习能力的后训练方案。实验表明，在低资源场景下，我们提出的方法优于直接微调。

0

相关内容

上下文

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【ICML2025】大语言模型是自我示范预选择器

【ICML2025】大语言模型是自我示范预选择器

专知会员服务

13+阅读 · 2025年6月9日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

专知会员服务

24+阅读 · 2024年5月19日

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

专知会员服务

57+阅读 · 2024年1月24日

语音大模型怎么做？台大李宏毅老师ASRU2023《语音基础模型的发展历程》，74页ppt

语音大模型怎么做？台大李宏毅老师ASRU2023《语音基础模型的发展历程》，74页ppt

专知会员服务

65+阅读 · 2023年12月20日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

专知会员服务

41+阅读 · 2023年1月3日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

元学习（Meta Learning）最全论文、视频、书籍资源整理

元学习（Meta Learning）最全论文、视频、书籍资源整理

深度学习与NLP

22+阅读 · 2019年6月20日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【资源推荐】元学习（meta-learning）相关文献资源大列表

【资源推荐】元学习（meta-learning）相关文献资源大列表

专知

25+阅读 · 2019年3月6日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Learn-To-Learn on Arbitrary Textual Conditioning: A Hypernetwork-Driven Meta-Gated LLM

Arxiv

0+阅读 · 6月16日

Context-Aware RL for Agentic and Multimodal LLMs

Arxiv

0+阅读 · 6月15日

AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models

Arxiv

0+阅读 · 6月12日

Meta-Learning Transformers to Improve In-Context Generalization

Arxiv

0+阅读 · 6月11日

Quo Vadis, Visual In-Context Learning? A Unified Benchmark Across Domains and Tasks

Arxiv

0+阅读 · 6月9日

AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs

Arxiv

0+阅读 · 6月1日

VoiceGiraffe: A Benchmark for Extreme Long-Context Audio-Language Understanding

Arxiv

0+阅读 · 5月27日

FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demonstrations

Arxiv

0+阅读 · 5月26日

Learning, Fast and Slow: Towards LLMs That Adapt Continually

Arxiv

0+阅读 · 5月14日

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

Arxiv

0+阅读 · 4月14日

VIP会员

文章信息

相关主题

上下文学习

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【ICML2025】大语言模型是自我示范预选择器

【ICML2025】大语言模型是自我示范预选择器

专知会员服务

13+阅读 · 2025年6月9日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

专知会员服务

24+阅读 · 2024年5月19日

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

专知会员服务

57+阅读 · 2024年1月24日

语音大模型怎么做？台大李宏毅老师ASRU2023《语音基础模型的发展历程》，74页ppt

语音大模型怎么做？台大李宏毅老师ASRU2023《语音基础模型的发展历程》，74页ppt

专知会员服务

65+阅读 · 2023年12月20日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

专知会员服务

41+阅读 · 2023年1月3日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

元学习（Meta Learning）最全论文、视频、书籍资源整理

元学习（Meta Learning）最全论文、视频、书籍资源整理

深度学习与NLP

22+阅读 · 2019年6月20日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【资源推荐】元学习（meta-learning）相关文献资源大列表

【资源推荐】元学习（meta-learning）相关文献资源大列表

专知

25+阅读 · 2019年3月6日

相关论文

Learn-To-Learn on Arbitrary Textual Conditioning: A Hypernetwork-Driven Meta-Gated LLM

Arxiv

0+阅读 · 6月16日

Context-Aware RL for Agentic and Multimodal LLMs

Arxiv

0+阅读 · 6月15日

AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models

Arxiv

0+阅读 · 6月12日

Meta-Learning Transformers to Improve In-Context Generalization

Arxiv

0+阅读 · 6月11日

Quo Vadis, Visual In-Context Learning? A Unified Benchmark Across Domains and Tasks

Arxiv

0+阅读 · 6月9日

AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs

Arxiv

0+阅读 · 6月1日

VoiceGiraffe: A Benchmark for Extreme Long-Context Audio-Language Understanding

Arxiv

0+阅读 · 5月27日

FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demonstrations

Arxiv

0+阅读 · 5月26日

Learning, Fast and Slow: Towards LLMs That Adapt Continually

Arxiv

0+阅读 · 5月14日

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

Arxiv

0+阅读 · 4月14日

相关基金

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于实时fMRI解码与脑网络建模的听觉信息认知加工机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员