When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning - 专知论文

会员服务 ·

0

上下文 · 上下文推理 · 长上下文 · GRU · 门控 ·

When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

翻译：何时记忆与何时停止：用于长上下文推理的门控循环记忆

Leheng Sheng,Yongtao Zhang,Wenchang Ma,Yaorui Shi,Ting Huang,Xiang Wang,An Zhang,Ke Shen,Tat-Seng Chua

from arxiv, 26 pages

While reasoning over long context is crucial for various real-world applications, it remains challenging for large language models (LLMs) as they suffer from performance degradation as the context length grows. Recent work MemAgent has tried to tackle this by processing context chunk-by-chunk in an RNN-like loop and updating a textual memory for final answering. However, this naive recurrent memory update faces two crucial drawbacks: (i) memory can quickly explode because it can update indiscriminately, even on evidence-free chunks; and (ii) the loop lacks an exit mechanism, leading to unnecessary computation after even sufficient evidence is collected. To address these issues, we propose GRU-Mem, which incorporates two text-controlled gates for more stable and efficient long-context reasoning. Specifically, in GRU-Mem, the memory only updates when the update gate is open and the recurrent loop will exit immediately once the exit gate is open. To endow the model with such capabilities, we introduce two reward signals $r^{\text{update}}$ and $r^{\text{exit}}$ within end-to-end RL, rewarding the correct updating and exiting behaviors respectively. Experiments on various long-context reasoning tasks demonstrate the effectiveness and efficiency of GRU-Mem, which generally outperforms the vanilla MemAgent with up to 400\% times inference speed acceleration.

翻译：尽管长上下文推理对于各类现实应用至关重要，但大型语言模型（LLMs）在此方面仍面临挑战，其性能会随着上下文长度的增加而下降。近期工作 MemAgent 尝试通过类 RNN 循环逐块处理上下文并更新文本记忆以进行最终回答来解决此问题。然而，这种简单的循环记忆更新存在两个关键缺陷：（i）记忆可能迅速膨胀，因为即使在没有证据的文本块上，它也可能不加区分地更新；（ii）循环缺乏退出机制，导致即使在收集到充分证据后仍进行不必要的计算。为解决这些问题，我们提出了 GRU-Mem，它引入了两个文本控制门以实现更稳定高效的长上下文推理。具体而言，在 GRU-Mem 中，记忆仅在更新门开启时更新，且循环会在退出门开启时立即终止。为赋予模型此类能力，我们在端到端强化学习中引入了两个奖励信号 $r^{\text{update}}$ 和 $r^{\text{exit}}$，分别对正确的更新和退出行为进行奖励。在多种长上下文推理任务上的实验证明了 GRU-Mem 的有效性和高效性，其通常优于原始 MemAgent，推理速度最高可提升 400%。

0

相关内容

上下文

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

10+阅读 · 2025年10月15日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

大型语言模型推理增强外部知识：综述

大型语言模型推理增强外部知识：综述

专知会员服务

38+阅读 · 2025年6月2日

停止过度思考：大型语言模型高效推理研究综述

停止过度思考：大型语言模型高效推理研究综述

专知会员服务

37+阅读 · 2025年3月21日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

专知会员服务

41+阅读 · 2023年1月3日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

干货 | 循环神经网络（RNN）和LSTM初学者指南

干货 | 循环神经网络（RNN）和LSTM初学者指南

THU数据派

15+阅读 · 2019年1月25日

论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

开放知识图谱

11+阅读 · 2018年12月16日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

EMNLP 2018 | 短文本分类，腾讯AI Lab联合港中文提出主题记忆网络

EMNLP 2018 | 短文本分类，腾讯AI Lab联合港中文提出主题记忆网络

机器之心

23+阅读 · 2018年10月23日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

15+阅读 · 2018年3月12日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

适应性记忆的认知与神经机制：生存加工和死亡提醒的双视角

国家自然科学基金

0+阅读 · 2016年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

脑衰老过程中长链非编码RNA对学习记忆相关基因的调控功能及机制

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Learning When to Attend: Conditional Memory Access for Long-Context LLMs

Arxiv

0+阅读 · 3月18日

The Limits of Long-Context Reasoning in Automated Bug Fixing

Arxiv

0+阅读 · 3月6日

MemoTime: Memory-Augmented Temporal Knowledge Graph Enhanced Large Language Model Reasoning

Arxiv

0+阅读 · 2月23日

Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs

Arxiv

0+阅读 · 2月21日

Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Time Series Reasoning via Process-Verifiable Thinking Data Synthesis and Scheduling for Tailored LLM Reasoning

Arxiv

0+阅读 · 2月8日

Look Back to Reason Forward: Revisitable Memory for Long-Context LLM Agents

Arxiv

0+阅读 · 2月4日

ReasonCACHE: Teaching LLMs To Reason Without Weight Updates

Arxiv

0+阅读 · 2月2日

Probe and Skip: Self-Predictive Token Skipping for Efficient Long-Context LLM Inference

Arxiv

0+阅读 · 2月2日

PaceLLM: Brain-Inspired Large Language Models for Long-Context Understanding

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

上下文推理

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

1+阅读 · 今天15:30

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

2+阅读 · 今天15:27

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

0+阅读 · 今天15:00

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

0+阅读 · 今天14:55

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

1+阅读 · 今天8:28

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

7+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

10+阅读 · 2025年10月15日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

大型语言模型推理增强外部知识：综述

大型语言模型推理增强外部知识：综述

专知会员服务

38+阅读 · 2025年6月2日

停止过度思考：大型语言模型高效推理研究综述

停止过度思考：大型语言模型高效推理研究综述

专知会员服务

37+阅读 · 2025年3月21日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

专知会员服务

41+阅读 · 2023年1月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

干货 | 循环神经网络（RNN）和LSTM初学者指南

干货 | 循环神经网络（RNN）和LSTM初学者指南

THU数据派

15+阅读 · 2019年1月25日

论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

开放知识图谱

11+阅读 · 2018年12月16日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

EMNLP 2018 | 短文本分类，腾讯AI Lab联合港中文提出主题记忆网络

EMNLP 2018 | 短文本分类，腾讯AI Lab联合港中文提出主题记忆网络

机器之心

23+阅读 · 2018年10月23日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

15+阅读 · 2018年3月12日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

相关论文

Learning When to Attend: Conditional Memory Access for Long-Context LLMs

Arxiv

0+阅读 · 3月18日

The Limits of Long-Context Reasoning in Automated Bug Fixing

Arxiv

0+阅读 · 3月6日

MemoTime: Memory-Augmented Temporal Knowledge Graph Enhanced Large Language Model Reasoning

Arxiv

0+阅读 · 2月23日

Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs

Arxiv

0+阅读 · 2月21日

Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Time Series Reasoning via Process-Verifiable Thinking Data Synthesis and Scheduling for Tailored LLM Reasoning

Arxiv

0+阅读 · 2月8日

Look Back to Reason Forward: Revisitable Memory for Long-Context LLM Agents

Arxiv

0+阅读 · 2月4日

ReasonCACHE: Teaching LLMs To Reason Without Weight Updates

Arxiv

0+阅读 · 2月2日

Probe and Skip: Self-Predictive Token Skipping for Efficient Long-Context LLM Inference

Arxiv

0+阅读 · 2月2日

PaceLLM: Brain-Inspired Large Language Models for Long-Context Understanding

Arxiv

0+阅读 · 2月2日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

适应性记忆的认知与神经机制：生存加工和死亡提醒的双视角

国家自然科学基金

0+阅读 · 2016年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

脑衰老过程中长链非编码RNA对学习记忆相关基因的调控功能及机制

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员