Multi-layer Cross-Attention is Provably Optimal for Multi-modal In-context Learning - 专知论文

会员服务 ·

0

模态 · 上下文 · 多模 · 最优 · 多模态 ·

Multi-layer Cross-Attention is Provably Optimal for Multi-modal In-context Learning

翻译：多层交叉注意力被证明是多模态上下文学习的最优选择

Nicholas Barnfield,Subhabrata Sen,Pragya Sur

Recent progress has rapidly advanced our understanding of the mechanisms underlying in-context learning in modern attention-based neural networks. However, existing results focus exclusively on unimodal data; in contrast, the theoretical underpinnings of in-context learning for multi-modal data remain poorly understood. We introduce a mathematically tractable framework for studying multi-modal learning and explore when transformer-like architectures can recover Bayes-optimal performance in-context. To model multi-modal problems, we assume the observed data arises from a latent factor model. Our first result comprises a negative take on expressibility: we prove that single-layer, linear self-attention fails to recover the Bayes-optimal predictor uniformly over the task distribution. To address this limitation, we introduce a novel, linearized cross-attention mechanism, which we study in the regime where both the number of cross-attention layers and the context length are large. We show that this cross-attention mechanism is provably Bayes optimal when optimized using gradient flow. Our results underscore the benefits of depth for in-context learning and establish the provable utility of cross-attention for multi-modal distributions.

翻译：近期进展迅速增进了我们对现代基于注意力的神经网络中上下文学习机制的理解。然而，现有成果仅专注于单模态数据；相比之下，多模态数据上下文学习的理论基础仍然知之甚少。我们引入了一个数学上易于处理的框架来研究多模态学习，并探究类Transformer架构何时能够在上下文中恢复贝叶斯最优性能。为了对多模态问题进行建模，我们假设观测数据源自一个潜在因子模型。我们的第一个结果包含了对表达能力的负面看法：我们证明了单层线性自注意力无法在任务分布上一致地恢复贝叶斯最优预测器。为了解决这一局限，我们引入了一种新颖的线性化交叉注意力机制，并在交叉注意力层数和上下文长度都很大的机制下对其进行了研究。我们证明，当使用梯度流进行优化时，这种交叉注意力机制是贝叶斯最优的。我们的结果凸显了深度对于上下文学习的益处，并确立了交叉注意力对于多模态分布的可证明效用。

0

相关内容

【博士论文】基于多模态基础模型的上下文学习

【博士论文】基于多模态基础模型的上下文学习

专知会员服务

23+阅读 · 2025年12月17日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知会员服务

84+阅读 · 2023年4月6日

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

专知会员服务

71+阅读 · 2022年10月9日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【Paul Liang】多模态深度学习，Multimodal Deep Learning

【Paul Liang】多模态深度学习，Multimodal Deep Learning

专知会员服务

185+阅读 · 2022年4月12日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知会员服务

30+阅读 · 2021年12月2日

港中文等最新《多模态元学习》综述论文

港中文等最新《多模态元学习》综述论文

专知会员服务

124+阅读 · 2021年10月8日

多模态学习方法综述

专知会员服务

235+阅读 · 2020年5月6日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知会员服务

57+阅读 · 2020年1月12日

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

专知会员服务

33+阅读 · 2019年6月10日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

注意力模型深度综述：注意力类型和网络架构都有什么

注意力模型深度综述：注意力类型和网络架构都有什么

机器之心

19+阅读 · 2019年4月10日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

种群遗传学的多人交互式学习研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Fine-Tuning Without Forgetting In-Context Learning: A Theoretical Analysis of Linear Attention Models

Arxiv

0+阅读 · 2月26日

Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

Arxiv

0+阅读 · 2月24日

Selective Synchronization Attention

Arxiv

0+阅读 · 2月16日

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

Arxiv

0+阅读 · 2月12日

ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention

Arxiv

0+阅读 · 2月7日

Efficient Attention Mechanisms for Large Language Models: A Survey

Arxiv

0+阅读 · 2月7日

Cross-Attention Transformer for Joint Multi-Receiver Uplink Neural Decoding

Arxiv

0+阅读 · 2月4日

A Provable Expressiveness Hierarchy in Hybrid Linear-Full Attention

Arxiv

0+阅读 · 2月2日

A Statistical Theory of Gated Attention through the Lens of Hierarchical Mixture of Experts

Arxiv

0+阅读 · 2月1日

Cross-Modal Binary Attention: An Energy-Efficient Fusion Framework for Audio-Visual Learning

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

3+阅读 · 今天8:46

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

2+阅读 · 今天7:41

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

0+阅读 · 今天7:22

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

6+阅读 · 今天6:04

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

7+阅读 · 今天5:37

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

6+阅读 · 今天5:35

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

2+阅读 · 今天5:24

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

2+阅读 · 今天5:18

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

2+阅读 · 今天3:25

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

13+阅读 · 今天2:55

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

3+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

4+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

4+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

6+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

3+阅读 · 4月23日

相关VIP内容

【博士论文】基于多模态基础模型的上下文学习

【博士论文】基于多模态基础模型的上下文学习

专知会员服务

23+阅读 · 2025年12月17日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知会员服务

84+阅读 · 2023年4月6日

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

多模态数据如何学习？UIC最新《视觉+X:数据视角下的多模态学习》研究综述，21页pdf涵盖269篇文献详述多模态机器学习进展

专知会员服务

71+阅读 · 2022年10月9日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【Paul Liang】多模态深度学习，Multimodal Deep Learning

【Paul Liang】多模态深度学习，Multimodal Deep Learning

专知会员服务

185+阅读 · 2022年4月12日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知会员服务

30+阅读 · 2021年12月2日

港中文等最新《多模态元学习》综述论文

港中文等最新《多模态元学习》综述论文

专知会员服务

124+阅读 · 2021年10月8日

多模态学习方法综述

专知会员服务

235+阅读 · 2020年5月6日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知会员服务

57+阅读 · 2020年1月12日

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

专知会员服务

33+阅读 · 2019年6月10日

热门VIP内容

开通专知VIP会员享更多权益服务

战场之外的较量：美伊冲突中的认知战与心理博弈

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

以色列军事技术对美国军力发展的持续性赋能

俄乌战争中乌克兰防空能力演变与见解（中文版）

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

注意力模型深度综述：注意力类型和网络架构都有什么

注意力模型深度综述：注意力类型和网络架构都有什么

机器之心

19+阅读 · 2019年4月10日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

相关论文

Fine-Tuning Without Forgetting In-Context Learning: A Theoretical Analysis of Linear Attention Models

Arxiv

0+阅读 · 2月26日

Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

Arxiv

0+阅读 · 2月24日

Selective Synchronization Attention

Arxiv

0+阅读 · 2月16日

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

Arxiv

0+阅读 · 2月12日

ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention

Arxiv

0+阅读 · 2月7日

Efficient Attention Mechanisms for Large Language Models: A Survey

Arxiv

0+阅读 · 2月7日

Cross-Attention Transformer for Joint Multi-Receiver Uplink Neural Decoding

Arxiv

0+阅读 · 2月4日

A Provable Expressiveness Hierarchy in Hybrid Linear-Full Attention

Arxiv

0+阅读 · 2月2日

A Statistical Theory of Gated Attention through the Lens of Hierarchical Mixture of Experts

Arxiv

0+阅读 · 2月1日

Cross-Modal Binary Attention: An Energy-Efficient Fusion Framework for Audio-Visual Learning

Arxiv

0+阅读 · 1月31日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

种群遗传学的多人交互式学习研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员