We present Nacrith, a lossless compression system that combines a 135M-parameter transformer language model (SmolLM2-135M) with an ensemble of lightweight online predictors and a 32-bit arithmetic coder. Beyond the base LLM-plus-arithmetic-coding paradigm, Nacrith introduces several contributions: (1) a CDF precision upgrade from 2^16 to 2^24 that eliminates ~75% of quantization overhead caused by minimum-probability floors in large vocabularies; (2) a token-level N-gram model for fast local predictions; (3) an adaptive log-space bias head correcting per-document LLM errors via online gradient descent; (4) confidence-based LLM skip for accelerating highly predictable tokens; (5) a hybrid binary format (NC06) extending neural compression to arbitrary binary files--to our knowledge a first among LLM-based compressors; (6) a llama.cpp inference backend achieving ~7x faster single-token decode than PyTorch; (7) parallel multi-GPU compression across up to 8 workers; and (8) native KV cache sliding window reducing per-slide cost by ~37x. The system requires only ~500 MB of GGUF weights and ~1.2 GB VRAM per worker, running on consumer GPUs. On alice29.txt (Canterbury Corpus, 152 KB), Nacrith achieves 0.918 bits per byte (bpb)--outperforming gzip by 3.1x, bzip2 by 2.5x, CMIX v21 by 44%, and ts_zip by 20%, while compressing below the 0th-, 1st-, and 2nd-order byte-level Shannon entropy bounds. On enwik8 (100 MB), Nacrith achieves 0.9389 bpb (11.74%), surpassing ts_zip (~1.11 bpb) by 15% and FineZip (1.024 bpb) by 8% despite using a 60x smaller model with no fine-tuning. An out-of-distribution evaluation on a document published after the model's training cutoff confirms these gains are not memorization artifacts, achieving 0.723 bpb on unseen text.


翻译:本文提出Nacrith——一种结合135M参数Transformer语言模型(SmolLM2-135M)、轻量级在线预测器集成与32位算术编码器的无损压缩系统。在基础LLM加算术编码范式之外,Nacrith引入多项创新:(1)将CDF精度从2^16提升至2^24,消除大词表中因最小概率阈值导致的约75%量化开销;(2)面向快速局部预测的token级N-gram模型;(3)通过在线梯度下降校正单文档LLM误差的自适应对数空间偏置头;(4)基于置信度的LLM跳过机制,加速高可预测token的处理;(5)混合二进制格式(NC06)将神经压缩扩展至任意二进制文件——据我们所知,这是基于LLM的压缩器中首次实现该功能;(6)基于llama.cpp的推理后端实现比PyTorch快约7倍的单token解码速度;(7)支持最多8个并行工作器的多GPU压缩;(8)原生KV缓存滑动窗口将每滑动步长成本降低约37倍。该系统仅需约500 MB的GGUF权重文件,每个工作器约1.2 GB显存,可在消费级GPU上运行。在alice29.txt(坎特伯雷语料库,152 KB)上,Nacrith达到0.918比特每字节(bpb)——性能超越gzip 3.1倍、bzip2 2.5倍、CMIX v21 44%、ts_zip 20%,且压缩率低于0阶、1阶和2阶字节级香农熵边界。在enwik8(100 MB)上,Nacrith达到0.9389 bpb(11.74%),相比ts_zip(约1.11 bpb)提升15%,较FineZip(1.024 bpb)提升8%,而所用模型体积缩小60倍且无需微调。在模型训练截止时间后发布的文档上进行分布外评估,证实这些增益非记忆伪影,对未见文本仍达到0.723 bpb。

0
下载
关闭预览

相关内容

DeepSeek模型关键创新技术综述
专知会员服务
48+阅读 · 2025年3月21日
【ICML2024】神经 NeRF 压缩
专知会员服务
19+阅读 · 2024年6月15日
【NeurIPS 2019】7篇自动化神经网络搜索(NAS)论文简读
中国人工智能学会
15+阅读 · 2019年9月13日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
前沿 | 简述脉冲神经网络SNN:下一代神经网络
机器之心
39+阅读 · 2018年1月13日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
内省扩散语言模型
专知会员服务
1+阅读 · 今天14:42
国外反无人机系统与技术动态
专知会员服务
2+阅读 · 今天12:48
大规模作战行动中的战术作战评估(研究论文)
专知会员服务
3+阅读 · 今天12:21
未来的海战无人自主系统
专知会员服务
2+阅读 · 今天12:05
美军多域作战现状分析:战略、概念还是幻想?
专知会员服务
4+阅读 · 今天11:52
无人机与反无人机系统(书籍)
专知会员服务
16+阅读 · 今天6:45
美陆军2026条令:安全与机动支援
专知会员服务
6+阅读 · 今天5:49
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员