Neural scaling laws have become foundational for optimizing large language model (LLM) training, yet they typically assume a single dense model output. This limitation effectively overlooks "Familial models, a transformative paradigm essential for realizing ubiquitous intelligence across heterogeneous device-edge-cloud hierarchies. Transcending static architectures, familial models integrate early exits with relay-style inference to spawn G deployable sub-models from a single shared backbone. In this work, we theoretically and empirically extend the scaling law to capture this "one-run, many-models" paradigm by introducing Granularity (G) as a fundamental scaling variable alongside model size (N) and training tokens (D). To rigorously quantify this relationship, we propose a unified functional form L(N, D, G) and parameterize it using large-scale empirical runs. Specifically, we employ a rigorous IsoFLOP experimental design to strictly isolate architectural impact from computational scale. Across fixed budgets, we systematically sweep model sizes (N) and granularities (G) while dynamically adjusting tokens (D). This approach effectively decouples the marginal cost of granularity from the benefits of scale, ensuring high-fidelity parameterization of our unified scaling law. Our results reveal that the granularity penalty follows a multiplicative power law with an extremely small exponent. Theoretically, this bridges fixed-compute training with dynamic architectures. Practically, it validates the "train once, deploy many" paradigm, demonstrating that deployment flexibility is achievable without compromising the compute-optimality of dense baselines.


翻译:神经缩放定律已成为优化大型语言模型训练的基础性工具,但通常假设单一稠密模型的输出。这一局限实质上忽视了"家族模型"——一种对于实现跨异构设备-边缘-云层级泛在智能至关重要的变革性范式。超越静态架构的家族模型,通过集成早退出口与中继式推理,能够从单一共享主干网络衍生出G个可部署子模型。本研究从理论与实证层面扩展了缩放定律,以捕捉这种"一次训练,多模型部署"范式,引入粒度作为除模型规模与训练令牌数之外的基本缩放变量。为严格量化该关系,我们提出统一函数形式,并通过大规模实证实验进行参数化。具体而言,我们采用严谨的等计算量实验设计,将架构影响与计算规模严格分离。在固定计算预算下,我们系统性地遍历模型规模与粒度参数,同时动态调整训练令牌数。该方法有效解耦了粒度边际成本与规模收益,确保统一缩放定律的高保真参数化。研究结果表明:粒度惩罚遵循指数极小的乘幂定律。理论上,这架起了固定计算训练与动态架构之间的桥梁;实践上,验证了"一次训练,多处部署"范式的可行性,证明在保持稠密基线计算最优性的同时,完全能够实现部署灵活性。

0
下载
关闭预览

相关内容

神经缩放定律的起源:从随机图到自然语言
专知会员服务
14+阅读 · 1月17日
知识图谱基础模型的数学基础
专知会员服务
41+阅读 · 2025年1月12日
大模型的模型压缩与有效推理综述
专知会员服务
43+阅读 · 2024年7月8日
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月27日
Arxiv
0+阅读 · 1月27日
Arxiv
0+阅读 · 1月14日
Arxiv
0+阅读 · 2025年12月29日
VIP会员
相关资讯
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员