Studying the Soupability of Documents in State Space Models - 专知论文

会员服务 ·

0

融合 · 状态空间 · 空间模型 · 问答 · 结构 ·

Studying the Soupability of Documents in State Space Models

翻译：状态空间模型中文档可融合性的研究

Yasaman Jafari,Zixian Wang,Leon Bergen,Taylor Berg-Kirkpatrick

We investigate whether hidden states from Structured State Space Models (SSMs) can be merged post hoc to support downstream reasoning. Inspired by model souping, we study document souping, a strategy where documents are encoded independently, and their representations are pooled, via simple operations like averaging, into a single context state. This approach enables modular encoding and reuse without reprocessing the full input for each query. We demonstrate that finetuned Mamba2 models with souped representations achieve competitive or superior performance across multi-hop QA, sparse retrieval, and long-document reasoning tasks compared to the standard monolithic encoding approach. For example, on the RACE and QuALITY benchmarks for long document question answering, this method substantially outperforms a traditional concatenation approach. Crucially, this modular design scales to hundreds of documents while delivering substantial savings in inference cost, unlocking new possibilities for large-scale corpus reasoning.

翻译：本研究探讨结构化状态空间模型（SSMs）的隐藏状态是否能够在训练后合并以支持下游推理任务。受模型融合技术的启发，我们提出文档融合策略：通过独立编码文档，并利用平均等简单操作将其表征池化为单一上下文状态。该方法支持模块化编码与复用，无需针对每个查询重新处理完整输入。实验表明，采用融合表征的微调Mamba2模型在多跳问答、稀疏检索和长文档推理任务中，相比标准整体编码方法展现出相当或更优的性能。例如，在长文档问答基准RACE和QuALITY上，该方法显著优于传统的文档拼接方法。关键的是，这种模块化设计可扩展至数百个文档，同时大幅降低推理成本，为大规模语料库推理开辟了新路径。

0

相关内容

【博士论文】基于多模态基础模型的上下文学习

【博士论文】基于多模态基础模型的上下文学习

专知会员服务

24+阅读 · 2025年12月17日

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

【斯坦福大学博士论文】使用结构化状态空间建模序列，330页pdf

【斯坦福大学博士论文】使用结构化状态空间建模序列，330页pdf

专知会员服务

39+阅读 · 2023年12月11日

西安交大最新《深度学习因果模型》综述论文，35页pdf涵盖292篇文献阐述三种数据范式因果模型

西安交大最新《深度学习因果模型》综述论文，35页pdf涵盖292篇文献阐述三种数据范式因果模型

专知会员服务

63+阅读 · 2023年11月5日

《深度模型融合》综述

《深度模型融合》综述

专知会员服务

75+阅读 · 2023年9月28日

使用多模态语言模型生成图像

使用多模态语言模型生成图像

专知会员服务

32+阅读 · 2023年8月23日

《多模态传感器融合与深度学习》美海军研究实验室19页报告

《多模态传感器融合与深度学习》美海军研究实验室19页报告

专知会员服务

116+阅读 · 2023年4月1日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知会员服务

76+阅读 · 2022年9月6日

最新《深度多模态数据分析》综述论文，26页pdf

最新《深度多模态数据分析》综述论文，26页pdf

专知会员服务

302+阅读 · 2020年6月16日

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

半参数空间自回归模型的理论研究及应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向图形化互联网的建筑空间组合表达与检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

面向DS证据理论的关联信息融合研究

国家自然科学基金

4+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

Arxiv

0+阅读 · 3月12日

Scaling State-Space Models on Multiple GPUs with Tensor Parallelism

Arxiv

0+阅读 · 2月24日

Improved state mixing in higher-order and block diagonal linear recurrent networks

Arxiv

0+阅读 · 2月12日

Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation

Arxiv

0+阅读 · 2月12日

MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation

Arxiv

0+阅读 · 2月12日

Towards Understanding What State Space Models Learn About Code

Arxiv

0+阅读 · 2月6日

Orthogonal Model Merging

Arxiv

0+阅读 · 2月5日

Transport and Merge: Cross-Architecture Merging for Large Language Models

Arxiv

0+阅读 · 2月5日

On the consistent and scalable detection of spatial patterns

Arxiv

0+阅读 · 2月2日

Mechanistic evaluation of Transformers and state space models

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

【CVPR2026教程】扩散模型的解析理解

【CVPR2026教程】扩散模型的解析理解

专知会员服务

0+阅读 · 48分钟前

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

专知会员服务

0+阅读 · 57分钟前

马赛克战：俄乌战场透析

马赛克战：俄乌战场透析

专知会员服务

13+阅读 · 今天4:12

《利用人工智能增强军事决策》

《利用人工智能增强军事决策》

专知会员服务

4+阅读 · 今天4:09

《自动机器学习在军事数据耕耘法中的应用》

《自动机器学习在军事数据耕耘法中的应用》

专知会员服务

6+阅读 · 今天4:02

为何指挥所生存能力要求范式转变

为何指挥所生存能力要求范式转变

专知会员服务

5+阅读 · 今天3:54

打造“新蛛网”模式与高科技动员

打造“新蛛网”模式与高科技动员

专知会员服务

4+阅读 · 今天3:33

“蛛网”行动一周年：远程无人机战争

“蛛网”行动一周年：远程无人机战争

专知会员服务

3+阅读 · 今天3:23

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

专知会员服务

3+阅读 · 今天3:15

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

专知会员服务

3+阅读 · 今天3:09

【剑桥博士论文】智能体-环境协同优化

【剑桥博士论文】智能体-环境协同优化

专知会员服务

7+阅读 · 6月9日

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

专知会员服务

5+阅读 · 6月9日

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

专知会员服务

12+阅读 · 6月9日

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

专知会员服务

8+阅读 · 6月9日

为初级军官战术训练设计生成式人工智能平台

为初级军官战术训练设计生成式人工智能平台

专知会员服务

9+阅读 · 6月9日

相关VIP内容

【博士论文】基于多模态基础模型的上下文学习

【博士论文】基于多模态基础模型的上下文学习

专知会员服务

24+阅读 · 2025年12月17日

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

【斯坦福大学博士论文】使用结构化状态空间建模序列，330页pdf

【斯坦福大学博士论文】使用结构化状态空间建模序列，330页pdf

专知会员服务

39+阅读 · 2023年12月11日

西安交大最新《深度学习因果模型》综述论文，35页pdf涵盖292篇文献阐述三种数据范式因果模型

西安交大最新《深度学习因果模型》综述论文，35页pdf涵盖292篇文献阐述三种数据范式因果模型

专知会员服务

63+阅读 · 2023年11月5日

《深度模型融合》综述

《深度模型融合》综述

专知会员服务

75+阅读 · 2023年9月28日

使用多模态语言模型生成图像

使用多模态语言模型生成图像

专知会员服务

32+阅读 · 2023年8月23日

《多模态传感器融合与深度学习》美海军研究实验室19页报告

《多模态传感器融合与深度学习》美海军研究实验室19页报告

专知会员服务

116+阅读 · 2023年4月1日

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

【MIT博士论文】分层概率多模态数据融合研究进展，289页pdf

专知会员服务

76+阅读 · 2022年9月6日

最新《深度多模态数据分析》综述论文，26页pdf

最新《深度多模态数据分析》综述论文，26页pdf

专知会员服务

302+阅读 · 2020年6月16日

热门VIP内容

开通专知VIP会员享更多权益服务

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

《利用人工智能增强军事决策》

【CVPR2026教程】扩散模型的解析理解

马赛克战：俄乌战场透析

相关资讯

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

多模态情绪识别研究综述

多模态情绪识别研究综述

专知

25+阅读 · 2020年12月21日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

论文浅尝 | 将文本建模为关系图，用于联合实体和关系提取

开放知识图谱

77+阅读 · 2019年9月14日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

相关论文

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

Arxiv

0+阅读 · 3月12日

Scaling State-Space Models on Multiple GPUs with Tensor Parallelism

Arxiv

0+阅读 · 2月24日

Improved state mixing in higher-order and block diagonal linear recurrent networks

Arxiv

0+阅读 · 2月12日

Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation

Arxiv

0+阅读 · 2月12日

MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation

Arxiv

0+阅读 · 2月12日

Towards Understanding What State Space Models Learn About Code

Arxiv

0+阅读 · 2月6日

Orthogonal Model Merging

Arxiv

0+阅读 · 2月5日

Transport and Merge: Cross-Architecture Merging for Large Language Models

Arxiv

0+阅读 · 2月5日

On the consistent and scalable detection of spatial patterns

Arxiv

0+阅读 · 2月2日

Mechanistic evaluation of Transformers and state space models

Arxiv

0+阅读 · 1月30日

相关基金

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

半参数空间自回归模型的理论研究及应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向图形化互联网的建筑空间组合表达与检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

面向DS证据理论的关联信息融合研究

国家自然科学基金

4+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员