Investigating the Fundamental Limit: A Feasibility Study of Hybrid-Neural Archival - 专知论文

会员服务 ·

0

可行 · MoDELS · Storage · 语言模型化 · INFORMS ·

Investigating the Fundamental Limit: A Feasibility Study of Hybrid-Neural Archival

翻译：暂无翻译

Marcus Armstrong,ZiWei Qiu,Huy Q. Vo,Arjun Mukherjee

Large Language Models (LLMs) possess a theoretical capability to model information density far beyond the limits of classical statistical methods (e.g., Lempel-Ziv). However, utilizing this capability for lossless compression involves navigating severe system constraints, including non-deterministic hardware and prohibitive computational costs. In this work, we present an exploratory study into the feasibility of LLM-based archival systems. We introduce \textbf{Hybrid-LLM}, a proof-of-concept architecture designed to investigate the "entropic capacity" of foundation models in a storage context. \textbf{We identify a critical barrier to deployment:} the "GPU Butterfly Effect," where microscopic hardware non-determinism precludes data recovery. We resolve this via a novel logit quantization protocol, enabling the rigorous measurement of neural compression rates on real-world data. Our experiments reveal a distinct divergence between "retrieval-based" density (0.39 BPC on memorized literature) and "predictive" density (0.75 BPC on unseen news). While current inference latency ($\approx 2600\times$ slower than Zstd) limits immediate deployment to ultra-cold storage, our findings demonstrate that LLMs successfully capture semantic redundancy inaccessible to classical algorithms, establishing a baseline for future research into semantic file systems.

翻译：暂无翻译

0

相关内容

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

大语言模型中的检索与结构化增强生成综述

大语言模型中的检索与结构化增强生成综述

专知会员服务

33+阅读 · 2025年9月17日

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

基于大语言模型的复杂任务自主规划处理框架

基于大语言模型的复杂任务自主规划处理框架

专知会员服务

102+阅读 · 2024年4月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

AINLP

25+阅读 · 2019年8月21日

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

AINLP

15+阅读 · 2019年8月12日

灾难性遗忘问题新视角：迁移-干扰平衡

灾难性遗忘问题新视角：迁移-干扰平衡

CreateAMind

17+阅读 · 2019年7月6日

近期语音类前沿论文

近期语音类前沿论文

深度学习每日摘要

14+阅读 · 2019年3月17日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

专知

11+阅读 · 2018年3月29日

论文浅尝 | Improved Neural Relation Detection for KBQA

论文浅尝 | Improved Neural Relation Detection for KBQA

开放知识图谱

13+阅读 · 2018年1月21日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

h型信息网络测度的机理与实证研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

带稀疏约束不适定问题的算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于非参数建模和下方风险控制的养老基金投资管理研究

国家自然科学基金

0+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

不确定结构可靠寿命设计的时变高精度模型和序列优化问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Statistical Impossibility and Possibility of Aligning LLMs with Human Preferences: From Condorcet Paradox to Nash Equilibrium

Arxiv

0+阅读 · 4月30日

The Chameleon's Limit: Investigating Persona Collapse and Homogenization in Large Language Models

Arxiv

0+阅读 · 4月27日

Revisiting Non-Verbatim Memorization in Large Language Models: The Role of Entity Surface Forms

Arxiv

0+阅读 · 4月23日

TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis

Arxiv

0+阅读 · 4月17日

SoSBench: Benchmarking Safety Alignment on Six Scientific Domains

Arxiv

0+阅读 · 4月5日

Fair Representation in Parliamentary Summaries: Measuring and Mitigating Inclusion Bias

Arxiv

0+阅读 · 4月2日

Evaluating Latent Knowledge of Public Tabular Datasets in Large Language Models

Arxiv

0+阅读 · 3月30日

Mapping the Challenges of HCI: An Application and Evaluation of ChatGPT for Mining Insights at Scale

Arxiv

0+阅读 · 3月24日

Set-Valued Prediction for Large Language Models with Feasibility-Aware Coverage Guarantees

Arxiv

0+阅读 · 3月24日

From Isolated Scoring to Collaborative Ranking: A Comparison-Native Framework for LLM-Based Paper Evaluation

Arxiv

0+阅读 · 3月18日

VIP会员

文章信息

相关主题

语言模型化

最新内容

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

9+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

5+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

5+阅读 · 5月5日

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

6+阅读 · 5月5日

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

9+阅读 · 5月5日

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

14+阅读 · 5月5日

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

6+阅读 · 5月5日

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

9+阅读 · 5月5日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

3+阅读 · 5月5日

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

3+阅读 · 5月5日

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

8+阅读 · 5月4日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

12+阅读 · 5月4日

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

9+阅读 · 5月4日

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

9+阅读 · 5月4日

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

7+阅读 · 5月4日

相关VIP内容

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

大语言模型中的检索与结构化增强生成综述

大语言模型中的检索与结构化增强生成综述

专知会员服务

33+阅读 · 2025年9月17日

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

基于大语言模型的复杂任务自主规划处理框架

基于大语言模型的复杂任务自主规划处理框架

专知会员服务

102+阅读 · 2024年4月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

DeepSeek 版Claude Code，免费小白安装教程来了！

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

相关资讯

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

AINLP

25+阅读 · 2019年8月21日

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

AINLP

15+阅读 · 2019年8月12日

灾难性遗忘问题新视角：迁移-干扰平衡

灾难性遗忘问题新视角：迁移-干扰平衡

CreateAMind

17+阅读 · 2019年7月6日

近期语音类前沿论文

近期语音类前沿论文

深度学习每日摘要

14+阅读 · 2019年3月17日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

专知

11+阅读 · 2018年3月29日

论文浅尝 | Improved Neural Relation Detection for KBQA

论文浅尝 | Improved Neural Relation Detection for KBQA

开放知识图谱

13+阅读 · 2018年1月21日

相关论文

Statistical Impossibility and Possibility of Aligning LLMs with Human Preferences: From Condorcet Paradox to Nash Equilibrium

Arxiv

0+阅读 · 4月30日

The Chameleon's Limit: Investigating Persona Collapse and Homogenization in Large Language Models

Arxiv

0+阅读 · 4月27日

Revisiting Non-Verbatim Memorization in Large Language Models: The Role of Entity Surface Forms

Arxiv

0+阅读 · 4月23日

TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis

Arxiv

0+阅读 · 4月17日

SoSBench: Benchmarking Safety Alignment on Six Scientific Domains

Arxiv

0+阅读 · 4月5日

Fair Representation in Parliamentary Summaries: Measuring and Mitigating Inclusion Bias

Arxiv

0+阅读 · 4月2日

Evaluating Latent Knowledge of Public Tabular Datasets in Large Language Models

Arxiv

0+阅读 · 3月30日

Mapping the Challenges of HCI: An Application and Evaluation of ChatGPT for Mining Insights at Scale

Arxiv

0+阅读 · 3月24日

Set-Valued Prediction for Large Language Models with Feasibility-Aware Coverage Guarantees

Arxiv

0+阅读 · 3月24日

From Isolated Scoring to Collaborative Ranking: A Comparison-Native Framework for LLM-Based Paper Evaluation

Arxiv

0+阅读 · 3月18日

相关基金

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

h型信息网络测度的机理与实证研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

带稀疏约束不适定问题的算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于非参数建模和下方风险控制的养老基金投资管理研究

国家自然科学基金

0+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

不确定结构可靠寿命设计的时变高精度模型和序列优化问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员