Beyond N-gram: Data-Aware X-GRAM Extraction for Efficient Embedding Parameter Scaling - 专知论文

会员服务 ·

0

Beyond N-gram: Data-Aware X-GRAM Extraction for Efficient Embedding Parameter Scaling

翻译：超越N元语法：面向高效嵌入参数扩展的数据感知X元语法提取

Yilong Chen,Yanxi Xie,Zitian Gao,He Xin,Yihao Xiao,Jason Klein Liu,Haoming Luo,Yifan Luo,Zhengmao Ye,Tingwen Liu,Xin Zhao,Ran Tao,Bryan Dai

from arxiv, 29 pages, 9 figures, 13 tables

Large token-indexed lookup tables provide a compute-decoupled scaling path, but their practical gains are often limited by poor parameter efficiency and rapid memory growth. We attribute these limitations to Zipfian under-training of the long tail, heterogeneous demand across layers, and "slot collapse" that produces redundant embeddings. To address this, we propose X-GRAM, a frequency-aware dynamic token-injection framework. X-GRAM employs hybrid hashing and alias mixing to compress the tail while preserving head capacity, and refines retrieved vectors via normalized SwiGLU ShortConv to extract diverse local n-gram features. These signals are integrated into attention value streams and inter-layer residuals using depth-aware gating, effectively aligning static memory with dynamic context. This design introduces a memory-centric scaling axis that decouples model capacity from FLOPs. Extensive evaluations at the 0.73B and 1.15B scales show that X-GRAM improves average accuracy by as much as 4.4 points over the vanilla backbone and 3.2 points over strong retrieval baselines, while using substantially smaller tables in the 50% configuration. Overall, by decoupling capacity from compute through efficient memory management, X-GRAM offers a scalable and practical paradigm for future memory-augmented architectures. Code aviliable in https://github.com/Longyichen/X-gram.

翻译：大型令牌索引查找表提供了一种计算解耦的扩展路径，但其实际收益常受限于参数效率低下和内存快速增长。我们将这些限制归因于长尾分布的齐普夫欠训练、跨层异构需求以及产生冗余嵌入的“槽位坍塌”。为此，我们提出X-GRAM——一种频率感知的动态令牌注入框架。X-GRAM采用混合哈希与别名混合技术压缩尾部分布同时保留头部容量，并通过归一化SwiGLU ShortConv精炼检索向量以提取多样化局部n元语法特征。这些信号通过深度感知门控机制集成至注意力值流与层间残差中，有效对齐静态内存与动态上下文。该设计引入以内存为中心的扩展轴，实现模型容量与FLOPs的解耦。在0.73B与1.15B参数规模上的大量评估表明，X-GRAM相比原始骨干网络平均准确率提升最高达4.4个百分点，相比强检索基线提升3.2个百分点，同时采用仅50%配置的显著更小型表。总体而言，通过高效内存管理实现容量与计算解耦，X-GRAM为未来记忆增强型架构提供了可扩展且实用的范式。代码开源于https://github.com/Longyichen/X-gram。

0

相关内容

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

14+阅读 · 2025年11月14日

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

专知会员服务

13+阅读 · 2025年11月9日

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

专知会员服务

21+阅读 · 2023年7月16日

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

专知会员服务

34+阅读 · 2022年9月17日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知会员服务

22+阅读 · 2020年8月28日

超越三元组:基于超关系知识图谱嵌入的链接预测，Beyond Triplets: Hyper-Relational Knowledge Graph Embedding for Link Prediction

专知会员服务

78+阅读 · 2020年5月11日

【AAAI 2020】将深度学习与逻辑融合用于信息提取（Integrating Deep Learning with Logic Fusion for Information Extraction）

【AAAI 2020】将深度学习与逻辑融合用于信息提取（Integrating Deep Learning with Logic Fusion for Information Extraction）

专知会员服务

66+阅读 · 2019年12月28日

【论文|Google】基于元学习的排序架构，Ranking architectures using meta-learning

【论文|Google】基于元学习的排序架构，Ranking architectures using meta-learning

专知会员服务

18+阅读 · 2019年11月30日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

数据派THU

14+阅读 · 2019年6月15日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

深度学习超参数搜索实用指南

深度学习超参数搜索实用指南

云栖社区

28+阅读 · 2018年10月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维未知参数下的天波超视距雷达目标跟踪算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving

Arxiv

0+阅读 · 4月29日

Guess-Verify-Refine: Data-Aware Top-K for Sparse-Attention Decoding on Blackwell via Temporal Correlation

Arxiv

0+阅读 · 4月24日

HGQ-LUT: Fast LUT-Aware Training and Efficient Architectures for DNN Inference

Arxiv

0+阅读 · 4月24日

Beyond URLs: Metadata Diversity and Position for Efficient LLM Pretraining

Arxiv

0+阅读 · 4月19日

Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation

Arxiv

0+阅读 · 4月9日

Beyond the Parameters: A Technical Survey of Contextual Enrichment in Large Language Models: From In-Context Prompting to Causal Retrieval-Augmented Generation

Arxiv

0+阅读 · 4月3日

Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

Arxiv

0+阅读 · 3月26日

Beyond the Covariance Trap: Unlocking Generalization in Same-Subject Knowledge Editing for Large Language Models

Arxiv

0+阅读 · 3月16日

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

Arxiv

0+阅读 · 3月6日

Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations

Arxiv

0+阅读 · 3月2日

VIP会员

文章信息

相关主题

最新内容

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

专知会员服务

0+阅读 · 6分钟前

首场人工智能战争——俄乌战争（中文版、原文下载）

首场人工智能战争——俄乌战争（中文版、原文下载）

专知会员服务

0+阅读 · 今天1:52

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

专知会员服务

2+阅读 · 今天1:36

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

专知会员服务

1+阅读 · 今天1:28

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

专知会员服务

1+阅读 · 今天1:16

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

专知会员服务

2+阅读 · 5月8日

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

0+阅读 · 5月8日

认知战与交战性质的改变：神经战略视角

认知战与交战性质的改变：神经战略视角

专知会员服务

5+阅读 · 5月8日

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

专知会员服务

4+阅读 · 5月8日

人工智能对特定国防资源管理流程的影响（万字长文）

人工智能对特定国防资源管理流程的影响（万字长文）

专知会员服务

5+阅读 · 5月8日

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

专知会员服务

8+阅读 · 5月8日

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

专知会员服务

10+阅读 · 5月8日

《美空军条令出版物：网络空间作战（2026版）》

《美空军条令出版物：网络空间作战（2026版）》

专知会员服务

11+阅读 · 5月8日

《美空军条令出版物：空军作战中的信息（2026版）》

《美空军条令出版物：空军作战中的信息（2026版）》

专知会员服务

13+阅读 · 5月8日

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

专知会员服务

9+阅读 · 5月8日

相关VIP内容

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

14+阅读 · 2025年11月14日

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

专知会员服务

13+阅读 · 2025年11月9日

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

【KDD2023】在大规模图形语料库上进行图感知的语言模型预训练可以帮助多种图应用

专知会员服务

21+阅读 · 2023年7月16日

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

专知会员服务

34+阅读 · 2022年9月17日

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

【知乎】超越Lexical:用于文本搜索引擎的语义检索框架

专知会员服务

22+阅读 · 2020年8月28日

超越三元组:基于超关系知识图谱嵌入的链接预测，Beyond Triplets: Hyper-Relational Knowledge Graph Embedding for Link Prediction

专知会员服务

78+阅读 · 2020年5月11日

【AAAI 2020】将深度学习与逻辑融合用于信息提取（Integrating Deep Learning with Logic Fusion for Information Extraction）

【AAAI 2020】将深度学习与逻辑融合用于信息提取（Integrating Deep Learning with Logic Fusion for Information Extraction）

专知会员服务

66+阅读 · 2019年12月28日

【论文|Google】基于元学习的排序架构，Ranking architectures using meta-learning

【论文|Google】基于元学习的排序架构，Ranking architectures using meta-learning

专知会员服务

18+阅读 · 2019年11月30日

热门VIP内容

开通专知VIP会员享更多权益服务

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

相关资讯

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

数据派THU

14+阅读 · 2019年6月15日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

深度学习超参数搜索实用指南

深度学习超参数搜索实用指南

云栖社区

28+阅读 · 2018年10月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

相关论文

Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving

Arxiv

0+阅读 · 4月29日

Guess-Verify-Refine: Data-Aware Top-K for Sparse-Attention Decoding on Blackwell via Temporal Correlation

Arxiv

0+阅读 · 4月24日

HGQ-LUT: Fast LUT-Aware Training and Efficient Architectures for DNN Inference

Arxiv

0+阅读 · 4月24日

Beyond URLs: Metadata Diversity and Position for Efficient LLM Pretraining

Arxiv

0+阅读 · 4月19日

Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation

Arxiv

0+阅读 · 4月9日

Beyond the Parameters: A Technical Survey of Contextual Enrichment in Large Language Models: From In-Context Prompting to Causal Retrieval-Augmented Generation

Arxiv

0+阅读 · 4月3日

Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

Arxiv

0+阅读 · 3月26日

Beyond the Covariance Trap: Unlocking Generalization in Same-Subject Knowledge Editing for Large Language Models

Arxiv

0+阅读 · 3月16日

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

Arxiv

0+阅读 · 3月6日

Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations

Arxiv

0+阅读 · 3月2日

相关基金

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维未知参数下的天波超视距雷达目标跟踪算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员