Working Memory Constraints Scaffold Learning in Transformers under Data Scarcity - 专知论文

会员服务 ·

0

约束 · 工作记忆 · 宽度 · 对齐 · Transformer ·

Working Memory Constraints Scaffold Learning in Transformers under Data Scarcity

翻译：工作记忆约束在数据稀缺条件下为Transformer的学习提供支撑

Pranava Madhyastha,Dagmar Adamcova

from arxiv, Published in ACL 2026 Findings track

We investigate the integration of human-like working memory constraints into the Transformer architecture and implement several cognitively inspired attention variants, including fixed-width windows based and temporal decay based attention mechanisms. Our modified GPT-2 models are trained from scratch on developmentally plausible datasets (10M and 100M words). Performance is evaluated on grammatical judgment tasks (BLiMP) and alignment with human reading time data. Our results indicate that these cognitively-inspired constraints, particularly fixed-width attention, can significantly improve grammatical accuracy especially when training data is scarce. These constrained models also tend to show a stronger alignment with human processing metrics. The findings suggest that such constraints may serve as a beneficial inductive bias, guiding models towards more robust linguistic representations, especially in data-limited settings.

翻译：我们研究了将类人工作记忆约束整合到Transformer架构中的方法，并实现了多种受认知启发的注意力变体，包括基于固定宽度窗口和基于时间衰减的注意力机制。我们从头开始在符合发展心理学特征的数据集（1000万词和1亿词）上训练了改进后的GPT-2模型。通过在语法判断任务（BLiMP）以及与人眼阅读时间数据的对齐性上评估模型表现，结果表明这些受认知启发的约束（特别是固定宽度注意力）能够显著提升语法准确性，尤其在训练数据稀缺时表现突出。这些受约束模型通常也展现出与人类加工指标更强的对齐性。研究结论表明，此类约束可能作为一种有益的归纳偏置，在数据有限条件下引导模型形成更稳健的语言表征。

0

相关内容

Transformer如何用到强化学习中? 清华等最新《Transformer强化学习》综述论文详述进展

Transformer如何用到强化学习中? 清华等最新《Transformer强化学习》综述论文详述进展

专知会员服务

106+阅读 · 2023年1月10日

144页ppt！《Transformers》全面讲解，附视频

144页ppt！《Transformers》全面讲解，附视频

专知会员服务

119+阅读 · 2023年1月1日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

110+阅读 · 2021年8月13日

华为等发布《视觉Transformer转换器》综述论文，21页pdf

华为等发布《视觉Transformer转换器》综述论文，21页pdf

专知会员服务

86+阅读 · 2020年12月25日

【斯坦福大学博士论文】用于学习和转换任务表示的计算框架，A computational framework for learning and transforming task representations，166页pdf

【斯坦福大学博士论文】用于学习和转换任务表示的计算框架，A computational framework for learning and transforming task representations，166页pdf

专知会员服务

15+阅读 · 2020年7月3日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于猕猴模型研究精神分裂症中工作记忆损伤的神经网络机制

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

Meta-Learning Transformers to Improve In-Context Generalization

Arxiv

0+阅读 · 6月11日

One Step Closer to Ground Truth: A Multi-Scale Residual-Aware Representation Learning Pipeline for Predicting Time Series Data

Arxiv

0+阅读 · 6月10日

Is Agent Memory a Database? Rethinking Data Foundations for Long-Term AI Agent Memory

Arxiv

0+阅读 · 5月25日

From Unstructured Recall to Schema-Grounded Memory: Reliable AI Memory via Iterative, Schema-Aware Extraction

Arxiv

0+阅读 · 5月1日

Investigation into In-Context Learning Capabilities of Transformers

Arxiv

0+阅读 · 4月28日

StructMem: Structured Memory for Long-Horizon Behavior in LLMs

Arxiv

0+阅读 · 4月23日

Gradient Boosting within a Single Attention Layer

Arxiv

0+阅读 · 4月3日

State Space Model for New-Generation Network Alternative to Transformers: A Survey

Arxiv

14+阅读 · 2024年4月15日

Learning Imbalanced Data with Vision Transformers

Arxiv

11+阅读 · 2023年3月8日

A Survey on Transformers in Reinforcement Learning

Arxiv

31+阅读 · 2023年1月8日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

Transformer如何用到强化学习中? 清华等最新《Transformer强化学习》综述论文详述进展

Transformer如何用到强化学习中? 清华等最新《Transformer强化学习》综述论文详述进展

专知会员服务

106+阅读 · 2023年1月10日

144页ppt！《Transformers》全面讲解，附视频

144页ppt！《Transformers》全面讲解，附视频

专知会员服务

119+阅读 · 2023年1月1日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

110+阅读 · 2021年8月13日

华为等发布《视觉Transformer转换器》综述论文，21页pdf

华为等发布《视觉Transformer转换器》综述论文，21页pdf

专知会员服务

86+阅读 · 2020年12月25日

【斯坦福大学博士论文】用于学习和转换任务表示的计算框架，A computational framework for learning and transforming task representations，166页pdf

【斯坦福大学博士论文】用于学习和转换任务表示的计算框架，A computational framework for learning and transforming task representations，166页pdf

专知会员服务

15+阅读 · 2020年7月3日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

相关论文

Meta-Learning Transformers to Improve In-Context Generalization

Arxiv

0+阅读 · 6月11日

One Step Closer to Ground Truth: A Multi-Scale Residual-Aware Representation Learning Pipeline for Predicting Time Series Data

Arxiv

0+阅读 · 6月10日

Is Agent Memory a Database? Rethinking Data Foundations for Long-Term AI Agent Memory

Arxiv

0+阅读 · 5月25日

From Unstructured Recall to Schema-Grounded Memory: Reliable AI Memory via Iterative, Schema-Aware Extraction

Arxiv

0+阅读 · 5月1日

Investigation into In-Context Learning Capabilities of Transformers

Arxiv

0+阅读 · 4月28日

StructMem: Structured Memory for Long-Horizon Behavior in LLMs

Arxiv

0+阅读 · 4月23日

Gradient Boosting within a Single Attention Layer

Arxiv

0+阅读 · 4月3日

State Space Model for New-Generation Network Alternative to Transformers: A Survey

Arxiv

14+阅读 · 2024年4月15日

Learning Imbalanced Data with Vision Transformers

Arxiv

11+阅读 · 2023年3月8日

A Survey on Transformers in Reinforcement Learning

Arxiv

31+阅读 · 2023年1月8日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于猕猴模型研究精神分裂症中工作记忆损伤的神经网络机制

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员