In this report, we investigate the potential use of large language models (LLM's) in the task of data compression. Previous works have demonstrated promising results in applying LLM's towards compressing not only text, but also a wide range of multi-modal data. Despite the favorable performance achieved, there still remains several practical questions that pose a challenge towards replacing existing data compression algorithms with LLM's. In this work, we explore different methods to achieve a lower adjusted compression rate using LLM's as data compressors. In comparison to previous works, we were able to achieve a new state-of-the-art (SOTA) adjusted compression rate of around $18\%$ on the enwik9 dataset without additional model training. Furthermore, we explore the use of LLM's in compressing non-English data, code data, byte stream sequences. We show that while LLM's excel in compressing data in text-dominant domains, their ability in compressing non-natural text sequences still remain competitive if configured in the right way.


翻译:本报告研究了大型语言模型(LLM)在数据压缩任务中的潜在应用。先前的研究已证明,LLM不仅在文本压缩方面取得了有前景的结果,而且在多种多模态数据的压缩中也展现出良好性能。尽管已取得优异的性能表现,但若要将现有数据压缩算法替换为基于LLM的方案,仍存在若干实际挑战。本研究探索了多种利用LLM作为数据压缩器以实现更低调整压缩率的方法。与先前工作相比,我们在未进行额外模型训练的情况下,在enwik9数据集上实现了约$18\%$的调整压缩率,创造了新的最优性能记录。此外,我们探究了LLM在非英语数据、代码数据及字节流序列压缩中的应用。研究表明,虽然LLM在文本主导领域的数据压缩中表现卓越,但若采用恰当的配置策略,其在非自然文本序列压缩方面的能力仍具有竞争力。

0
下载
关闭预览

相关内容

【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
44+阅读 · 2020年9月11日
Python图像处理,366页pdf,Image Operators Image Processing in Python
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
RNN | RNN实践指南(2)
KingsGarden
19+阅读 · 2017年5月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员