LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling - 专知论文

会员服务 ·

0

上下文 · 长上下文 · 稀疏 · 损失 · 语言模型 ·

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

翻译：LPC-SM：面向长上下文语言建模的局部预测编码与稀疏记忆

Most current long-context language models still rely on attention to handle both local interaction and long-range state, which leaves relatively little room to test alternative decompositions of sequence modeling. We propose LPC-SM, a hybrid autoregressive architecture that separates local attention, persistent memory, predictive correction, and run-time control within the same block, and we use Orthogonal Novelty Transport (ONT) to govern slow-memory writes. We evaluate a 158M-parameter model in three stages spanning base language modeling, mathematical continuation, and 4096-token continuation. Removing mHC raises the Stage-A final LM loss from 12.630 to 15.127, while adaptive sparse control improves the Stage-B final LM loss from 12.137 to 10.787 relative to a matched fixed-ratio continuation. The full route remains stable at sequence length 4096, where Stage C ends with final LM loss 11.582 and improves the delayed-identifier diagnostic from 14.396 to 12.031 in key cross-entropy. Taken together, these results show that long-context autoregressive modeling can be organized around a broader division of labor than attention alone.

翻译：当前多数长上下文语言模型仍依赖注意力机制同时处理局部交互与长程状态，导致序列建模的替代分解方案研究空间有限。我们提出LPC-SM——一种在同一模块内分离局部注意力、持久记忆、预测校正与运行时控制的混合自回归架构，并采用正交新颖性传输机制管控慢速记忆写入。我们通过基础语言建模、数学延续与4096词元延续三阶段评估158M参数模型。移除mHC使A阶段最终语言模型损失从12.630升至15.127，而自适应稀疏控制相较匹配固定比率延续，将B阶段最终语言模型损失从12.137降至10.787。完整路径在序列长度4096下保持稳定，C阶段最终语言模型损失为11.582，并将关键交叉熵延迟标识诊断指标从14.396优化至12.031。综合结果表明，长上下文自回归建模可通过比单一注意力更广泛的功能划分来组织。

0

相关内容

上下文

[ICML 2026] 训练-推理一致的片段级执行：长上下文LLM的高效可扩展方法

[ICML 2026] 训练-推理一致的片段级执行：长上下文LLM的高效可扩展方法

专知会员服务

8+阅读 · 5月17日

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

专知会员服务

9+阅读 · 5月14日

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

37+阅读 · 3月14日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

130页pdf《长上下文语言建模综合研究》综述

130页pdf《长上下文语言建模综合研究》综述

专知会员服务

40+阅读 · 2025年3月25日

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

专知会员服务

38+阅读 · 2024年1月7日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【论文】利用Python开发长短时记忆网络，利用深度学习开发序列预测模型（Long Short-Term Memory Networks With Python，Develop Sequence Prediction Models With Deep Learning），246页pdf

【论文】利用Python开发长短时记忆网络，利用深度学习开发序列预测模型（Long Short-Term Memory Networks With Python，Develop Sequence Prediction Models With Deep Learning），246页pdf

专知会员服务

52+阅读 · 2020年1月1日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

西湖大学张岳：自然语言处理中的多任务联合学习（384页PPT）

西湖大学张岳：自然语言处理中的多任务联合学习（384页PPT）

专知

21+阅读 · 2018年11月20日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于自调进度稀疏表示的人脸识别算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

Arxiv

0+阅读 · 4月30日

AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism

Arxiv

0+阅读 · 4月29日

Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving

Arxiv

0+阅读 · 4月29日

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

Arxiv

0+阅读 · 4月27日

DepthKV: Layer-Dependent KV Cache Pruning for Long-Context LLM Inference

Arxiv

0+阅读 · 4月27日

StructMem: Structured Memory for Long-Horizon Behavior in LLMs

Arxiv

0+阅读 · 4月23日

PaceLLM: Brain-Inspired Large Language Models for Long-Context Understanding

Arxiv

0+阅读 · 4月10日

HiCI: Hierarchical Construction-Integration for Long-Context Attention

Arxiv

0+阅读 · 4月9日

Toward a Theory of Hierarchical Memory for Language Agents

Arxiv

0+阅读 · 3月23日

Characterizing State Space Model and Hybrid Language Model Performance with Long Context

Arxiv

0+阅读 · 3月22日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

[ICML 2026] 训练-推理一致的片段级执行：长上下文LLM的高效可扩展方法

[ICML 2026] 训练-推理一致的片段级执行：长上下文LLM的高效可扩展方法

专知会员服务

8+阅读 · 5月17日

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

专知会员服务

9+阅读 · 5月14日

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

37+阅读 · 3月14日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

130页pdf《长上下文语言建模综合研究》综述

130页pdf《长上下文语言建模综合研究》综述

专知会员服务

40+阅读 · 2025年3月25日

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

专知会员服务

38+阅读 · 2024年1月7日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【论文】利用Python开发长短时记忆网络，利用深度学习开发序列预测模型（Long Short-Term Memory Networks With Python，Develop Sequence Prediction Models With Deep Learning），246页pdf

【论文】利用Python开发长短时记忆网络，利用深度学习开发序列预测模型（Long Short-Term Memory Networks With Python，Develop Sequence Prediction Models With Deep Learning），246页pdf

专知会员服务

52+阅读 · 2020年1月1日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

西湖大学张岳：自然语言处理中的多任务联合学习（384页PPT）

西湖大学张岳：自然语言处理中的多任务联合学习（384页PPT）

专知

21+阅读 · 2018年11月20日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

相关论文

Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

Arxiv

0+阅读 · 4月30日

AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism

Arxiv

0+阅读 · 4月29日

Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving

Arxiv

0+阅读 · 4月29日

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

Arxiv

0+阅读 · 4月27日

DepthKV: Layer-Dependent KV Cache Pruning for Long-Context LLM Inference

Arxiv

0+阅读 · 4月27日

StructMem: Structured Memory for Long-Horizon Behavior in LLMs

Arxiv

0+阅读 · 4月23日

PaceLLM: Brain-Inspired Large Language Models for Long-Context Understanding

Arxiv

0+阅读 · 4月10日

HiCI: Hierarchical Construction-Integration for Long-Context Attention

Arxiv

0+阅读 · 4月9日

Toward a Theory of Hierarchical Memory for Language Agents

Arxiv

0+阅读 · 3月23日

Characterizing State Space Model and Hybrid Language Model Performance with Long Context

Arxiv

0+阅读 · 3月22日

相关基金

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于自调进度稀疏表示的人脸识别算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员