Modern deep learning architectures are increasingly multi-task and multi-modal, using a pretrained foundation model combined with task-specific, fine-tuned models. Empirically, exploiting similarity across different problems, instead of solving them individually, can significantly improve overall performance. While the generalization and sample complexity properties of multitask learning have been widely studied, the parametric complexity of joint approximation in comparison to separate approximation remains less well understood. The question is particularly relevant in modern deep learning, where models are increasingly required to satisfy structural constraints such as equivariance, conservation laws, or orthogonality. We prove lower and upper bounds on the description-length for separate and joint approximation classes, respectively, in uniform norm. We build a class of orthogonal functions by composing a shared hard feature, realized by a Rademacher-Haar wavelet series, with Sawtooth-Walsh readouts to enforce orthogonality of output coordinates. The dyadic tree structure of the Rademacher-Haar wavelet concentrates the approximation hardness in the common feature component, while the readouts act as task-specific heads. Using an information-theoretic framework, we obtain a sharp gap between the optimal approximation rates achievable by joint and separate coding. Finally, we realize this separation in a neural network model using Heaviside activations via reduction to triangle-wave approximation. Our results show that even under an orthogonality constraint joint approximation requires strictly fewer bits in compositional architectures, provided the tasks share a latent hard feature. This provides theoretical insight into the description-length-efficiency of compositional multi-output architectures and clarifies how neural networks can retain expressivity under geometric constraints.


翻译:现代深度学习架构日益呈现出多任务与多模态特性,通常采用预训练基础模型与任务特定微调模型相结合的方式。实验表明,利用不同问题的相似性(而非单独求解)能够显著提升整体性能。尽管多任务学习的泛化性与样本复杂度已得到广泛研究,但联合逼近与独立逼近的参数量复杂度差异仍待深入理解。该问题在现代深度学习中尤为关键——模型需满足等变性、守恒律或正交性等结构约束。我们分别证明了在一致范数下,独立逼近类与联合逼近类的描述长度的下界与上界。通过将Rademacher-Haar小波级数实现的共享硬特征与Sawtooth-Walsh读出函数相结合,构建了一类正交函数,以强制输出坐标的正交性。Rademacher-Haar小波的二叉树结构将逼近困难集中于公共特征组件,而读出函数则充当任务特定头部。基于信息论框架,我们揭示了联合编码与独立编码在最优逼近速率间的显著差距。最后,通过将三角形波逼近约简至Heaviside激活的神经网络模型,实现了该分离现象。研究结果表明:在组合式架构中,只要任务共享潜在硬特征,即使存在正交约束,联合逼近所需的比特数也严格更少。这为组合式多输出架构的描述长度效率提供了理论洞见,并阐明了神经网络如何在几何约束下保持表达能力。

0
下载
关闭预览

相关内容

用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
【阿姆斯特丹博士论文】表示学习中的信息理论
专知会员服务
23+阅读 · 2025年7月18日
【斯坦福博士论文】具有学习约束的深度表示,239页pdf
专知会员服务
62+阅读 · 2022年9月13日
专知会员服务
186+阅读 · 2020年6月21日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
<好书推荐> -《Pro Deep Learning with TensorFlow》分享
深度学习与NLP
12+阅读 · 2018年9月13日
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
基于信息理论的机器学习
专知
22+阅读 · 2017年11月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
14+阅读 · 2023年9月27日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员