Large Language Models (LLMs) are fundamentally constrained by the quadratic computational cost of self-attention and the "Lost in the Middle" phenomenon, where reasoning capabilities degrade as context windows expand. Existing solutions, primarily "Flat RAG" architectures relying on vector databases, treat memory as an unstructured bag of embeddings, failing to capture the hierarchical and temporal structure of long-horizon interactions. This paper presents Aeon, a Neuro-Symbolic Cognitive Operating System that redefines memory as a managed OS resource. Aeon structures memory into a Memory Palace (a spatial index implemented via Atlas, a SIMD-accelerated Page-Clustered Vector Index) and a Trace (a neuro-symbolic episodic graph). This architecture introduces three advances: (1) Symmetric INT8 Scalar Quantization, achieving 3.1x spatial compression and 5.6x math acceleration via NEON SDOT intrinsics; (2) a decoupled Write-Ahead Log (WAL) ensuring crash-recoverability with statistically negligible overhead (<1%); and (3) a Sidecar Blob Arena eliminating the prior 440-character text ceiling via an append-only mmap-backed blob file with generational garbage collection. The Semantic Lookaside Buffer (SLB) exploits conversational locality to achieve sub-5us retrieval latencies, with INT8 vectors dequantized to FP32 on cache insertion to preserve L1-resident lookup performance. Benchmarks on Apple M4 Max demonstrate that the combined architecture achieves 4.70ns INT8 dot product latency, 3.09us tree traversal at 100K nodes (3.4x over FP32), and P99 read latency of 750ns under hostile 16-thread contention via epoch-based reclamation.


翻译:大型语言模型(LLM)从根本上受到自注意力二次计算成本以及“中间迷失”现象(即随着上下文窗口扩展,推理能力会下降)的限制。现有解决方案主要依赖向量数据库的“扁平化RAG”架构,将内存视为非结构化的嵌入集合,无法捕捉长视野交互的层次性与时序结构。本文提出Aeon——一种神经符号认知操作系统,将内存重新定义为受管理的操作系统资源。Aeon将内存组织为记忆宫殿(通过Atlas实现的空间索引,Atlas是一种SIMD加速的页聚类向量索引)与轨迹(一种神经符号情景图)。该架构引入三项创新:(1)对称INT8标量量化,通过NEON SDOT指令实现3.1倍空间压缩与5.6倍数学运算加速;(2)解耦的预写日志(WAL),在统计可忽略的开销(<1%)下确保崩溃可恢复性;(3)旁路二进制大对象存储区,通过支持仅追加映射的mmap二进制文件与分代垃圾回收,消除了先前440字符的文本长度限制。语义旁路缓冲区(SLB)利用对话局部性实现低于5微秒的检索延迟,其中INT8向量在缓存插入时反量化为FP32格式以保持L1缓存驻留的查询性能。在Apple M4 Max上的基准测试表明,该组合架构实现了4.70纳秒的INT8点积延迟、10万节点树遍历耗时3.09微秒(较FP32提升3.4倍),在基于周期的回收机制下,16线程激烈争用时的P99读取延迟为750纳秒。

0
下载
关闭预览

相关内容

LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
哈工大讯飞联合实验室发布中文XLNet预训练模型
哈工大SCIR
13+阅读 · 2019年8月20日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员