Experiments probing natural language processing by both humans and LLMs suggest that the meaning of a semantic expression is indeterminate prior to the act of interpretation rather than being specifiable simply as the sum of its parts (i.e. compositionality). This observer-dependent act dynamically actualizes meaning under genuine contextuality more consistent with quantum logical mechanisms than with classical Boolean approaches that assume separability, motivating an approach to language modeling that utilizes a Hilbert space formalism. In this work, we introduce Phase-Associative Memory (PAM) -- a complex-valued sequence model whose state S_t \in \mathbb{C}^{d \times d} accumulates outer products of complex token embeddings retrieved through the conjugate inner product $\mathrm{Re}\langle K \mid Q\rangle / \sqrt{d}$ -- and evaluate it against a structurally matched real-valued ablation. Both architectures train stably across a 5M--100M parameter sweep on WikiText-103 under identical conditions; PAM sits at higher absolute loss at every measured scale but improves more rapidly with parameter count, with power-law exponents of $-0.15$ vs.\ $-0.12$ in loss and $-0.65$ vs.\ $-0.49$ in perplexity that narrow the gap between the two architectures monotonically. Further investigation of complex-valued sequence modeling at larger scales could reveal that the loss plateau characteristic of real-valued state-of-the-art language models (e.g. transformers) is reachable with PAM-style architectures with an order of magnitude fewer parameters than the current frontier ($\sim$1T), implying that similar capabilities are achievable at sizes runnable on consumer-grade hardware.


翻译:人类与大型语言模型(LLMs)在自然语言处理中的实验表明,语义表达的含义在解释行为之前是不确定的,而非简单归结为其组成部分的叠加(即组合性)。这种依赖观察者的行为在真实语境性下动态实现意义,其机制更符合量子逻辑,而非假设可分离性的经典布尔方法,从而激发了利用希尔伯特空间形式进行语言建模的动机。本文提出相位关联记忆(Phase-Associative Memory, PAM)——一种复值序列模型,其状态S_t ∈ \mathbb{C}^{d×d}通过共轭内积$\mathrm{Re}\langle K \mid Q\rangle / \sqrt{d}$检索复令牌嵌入的外积累积而成——并对其与结构匹配的实值消融模型进行对比评估。两种架构在WikiText-103数据集上、参数规模5M至100M范围内、相同条件下均稳定训练;PAM在每个测量尺度上具有更高绝对损失,但其损失随参数数量增长而更快改善,损失函数的幂律指数为-0.15(对比-0.12),困惑度的幂律指数为-0.65(对比-0.49),表明两种架构间的差距单调缩小。进一步在更大规模下探索复值序列建模可能揭示:采用PAM风格的架构,可在参数数量比当前前沿(约1T)少一个数量级的情况下,达到实值最先进语言模型(如transformer)特征性的损失平台,这意味着在消费级硬件可运行的规模下即可实现相似能力。

0
下载
关闭预览

相关内容

大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
大型概念模型:在句子表示空间中的语言建模
专知会员服务
18+阅读 · 2024年12月14日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员