KromHC: Manifold-Constrained Hyper-Connections with Kronecker-Product Residual Matrices - 专知论文

会员服务 ·

0

流形 · 约束 · 参数化 · 不稳定 · 扩展性 ·

KromHC: Manifold-Constrained Hyper-Connections with Kronecker-Product Residual Matrices

翻译：KromHC：采用克罗内克积残差矩阵的流形约束超连接

Wuyang Zhou,Yuxuan Gu,Giorgos Iacovides,Danilo Mandic

The success of Hyper-Connections (HC) in neural networks (NN) has also highlighted issues related to its training instability and restricted scalability. The Manifold-Constrained Hyper-Connections (mHC) mitigate these challenges by projecting the residual connection space onto a Birkhoff polytope, however, it faces two issues: 1) its iterative Sinkhorn-Knopp (SK) algorithm does not always yield exact doubly stochastic residual matrices; 2) mHC incurs a prohibitive $\mathcal{O}(n^3C)$ parameter complexity with $n$ as the width of the residual stream and $C$ as the feature dimension. The recently proposed mHC-lite reparametrizes the residual matrix via the Birkhoff-von-Neumann theorem to guarantee double stochasticity, but also faces a factorial explosion in its parameter complexity, $\mathcal{O} \left( nC \cdot n! \right)$. To address both challenges, we propose \textbf{KromHC}, which uses the \underline{Kro}necker products of smaller doubly stochastic matrices to parametrize the residual matrix in \underline{mHC}. By enforcing manifold constraints across the factor residual matrices along each mode of the tensorized residual stream, KromHC guarantees exact double stochasticity of the residual matrices while reducing parameter complexity to $\mathcal{O}(n^2C)$. Comprehensive experiments demonstrate that KromHC matches or even outperforms state-of-the-art (SOTA) mHC variants, while requiring significantly fewer trainable parameters. The code is available at \texttt{https://github.com/wz1119/KromHC}.

翻译：超连接（HC）在神经网络（NN）中的成功也凸显了其训练不稳定性和可扩展性受限的问题。流形约束超连接（mHC）通过将残差连接空间投影到 Birkhoff 多胞体上来缓解这些挑战，然而它面临两个问题：1）其迭代的 Sinkhorn-Knopp（SK）算法并不总能产生精确的双随机残差矩阵；2）mHC 的参数复杂度高达 $\mathcal{O}(n^3C)$，其中 $n$ 为残差流的宽度，$C$ 为特征维度。最近提出的 mHC-lite 通过 Birkhoff-von-Neumann 定理对残差矩阵进行重参数化以保证双随机性，但其参数复杂度也面临阶乘爆炸问题，即 $\mathcal{O} \left( nC \cdot n! \right)$。为应对这两个挑战，我们提出了 \textbf{KromHC}，该方法使用较小的双随机矩阵的 \underline{克罗内克积} 来参数化 \underline{mHC} 中的残差矩阵。通过对张量化残差流每个模态上的因子残差矩阵施加流形约束，KromHC 保证了残差矩阵的精确双随机性，同时将参数复杂度降低至 $\mathcal{O}(n^2C)$。综合实验表明，KromHC 达到甚至超越了最先进的 mHC 变体，同时所需的可训练参数显著减少。代码发布于 \texttt{https://github.com/wz1119/KromHC}。

0

相关内容

【阿姆斯特丹博士论文】神经网络表示中的结构约束，125页pdf

【阿姆斯特丹博士论文】神经网络表示中的结构约束，125页pdf

专知会员服务

39+阅读 · 2024年2月18日

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

专知会员服务

63+阅读 · 2020年7月12日

【ICML2020】序数非负矩阵分解推荐，On the Number of Linear Regions of Convolutional Neural Networks

【ICML2020】序数非负矩阵分解推荐，On the Number of Linear Regions of Convolutional Neural Networks

专知会员服务

17+阅读 · 2020年6月4日

超越三元组:基于超关系知识图谱嵌入的链接预测，Beyond Triplets: Hyper-Relational Knowledge Graph Embedding for Link Prediction

专知会员服务

78+阅读 · 2020年5月11日

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

专知会员服务

26+阅读 · 2020年4月2日

【CVPR2020】用于图像超分辨率的深度展开网络，Deep Unfolding Network for Image Super-Resolution

【CVPR2020】用于图像超分辨率的深度展开网络，Deep Unfolding Network for Image Super-Resolution

专知会员服务

44+阅读 · 2020年3月26日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

【论文推荐】几何图形卷积网络，GEOM-GCN: GEOMETRIC GRAPH CONVOLUTIONAL NETWORKS

【论文推荐】几何图形卷积网络，GEOM-GCN: GEOMETRIC GRAPH CONVOLUTIONAL NETWORKS

专知会员服务

77+阅读 · 2020年2月5日

【论文】双曲图卷积神经网络（Hyperbolic Graph Convolutional Neural Networks），斯坦福大学| Ines Chami，斯坦福大学| Rex Ying

【论文】双曲图卷积神经网络（Hyperbolic Graph Convolutional Neural Networks），斯坦福大学| Ines Chami，斯坦福大学| Rex Ying

专知会员服务

116+阅读 · 2019年12月30日

【ECML-PKDD 2019】突破可解释性障碍——解释深度图卷积模型的一种方法（Breaking the interpretability barrier - a methodfor interpreting deep graph convolutional models）

【ECML-PKDD 2019】突破可解释性障碍——解释深度图卷积模型的一种方法（Breaking the interpretability barrier - a methodfor interpreting deep graph convolutional models）

专知会员服务

19+阅读 · 2019年12月1日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

使用 Keras Tuner 调节超参数

使用 Keras Tuner 调节超参数

TensorFlow

15+阅读 · 2020年2月6日

CVPR2019教程《胶囊网络（Capsule Networks）综述》，附93页PPT

CVPR2019教程《胶囊网络（Capsule Networks）综述》，附93页PPT

GAN生成式对抗网络

29+阅读 · 2019年6月21日

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

泡泡机器人SLAM

36+阅读 · 2019年4月28日

图卷积神经网络的变种与挑战【附PPT与视频资料】

图卷积神经网络的变种与挑战【附PPT与视频资料】

人工智能前沿讲习班

28+阅读 · 2018年12月28日

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月13日

三味Capsule：矩阵Capsule与EM路由

三味Capsule：矩阵Capsule与EM路由

PaperWeekly

10+阅读 · 2018年3月2日

网络节点表示学习论文笔记01—AAAI2018超网络节点表示学习

网络节点表示学习论文笔记01—AAAI2018超网络节点表示学习

专知

15+阅读 · 2018年2月9日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

74+阅读 · 2017年11月8日

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

机器之心

12+阅读 · 2017年11月7日

新型超导纳米线材料中Majorana束缚态的能谱与输运特性

国家自然科学基金

0+阅读 · 2016年12月31日

SiC纳米线/CVD石墨烯/热解炭复合材料制备、界面结构与力学性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

超强耦合下受限量子系统的量子相干效应及其量子调控

国家自然科学基金

0+阅读 · 2015年12月31日

连续时间马氏决策过程受约束问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

K连通抗毁性拓扑条件下异构群体的协同一致

国家自然科学基金

1+阅读 · 2015年12月31日

二维超材料中 Maxwell 方程组高阶 Nedelec 混合有限元超收敛研究

国家自然科学基金

0+阅读 · 2015年12月31日

Snk-SPAR通路介导微波辐射后树突棘可塑性异常的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

超高交联聚苯胺的合成、结构及其对重金属离子和溶解性有机物的共吸附机理

国家自然科学基金

0+阅读 · 2015年12月31日

关于二阶锥互补约束数学规划问题的约束规范和算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于异构连通需求的M2M网络拓扑控制机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

BHyGNN+: Unsupervised Representation Learning for Heterophilic Hypergraphs

Arxiv

0+阅读 · 2月16日

Confounding Robust Continuous Control via Automatic Reward Shaping

Arxiv

0+阅读 · 2月10日

Empirical Stability Analysis of Kolmogorov-Arnold Networks in Hard-Constrained Recurrent Physics-Informed Discovery

Arxiv

0+阅读 · 2月10日

FlashSinkhorn: IO-Aware Entropic Optimal Transport

Arxiv

0+阅读 · 2月10日

Improved Approximate Regret for Decentralized Online Continuous Submodular Maximization via Reductions

Arxiv

0+阅读 · 2月10日

Differentiable Logic Synthesis: Spectral Coefficient Selection via Sinkhorn-Constrained Composition

Arxiv

0+阅读 · 2月9日

Physical Analog Kolmogorov-Arnold Networks based on Reconfigurable Nonlinear-Processing Units

Arxiv

0+阅读 · 2月7日

Imbalance-Robust and Sampling-Efficient Continuous Conditional GANs via Adaptive Vicinity and Auxiliary Regularization

Arxiv

0+阅读 · 2月3日

A Cosine Network for Image Super-Resolution

Arxiv

0+阅读 · 1月23日

Differentiable Logic Synthesis: Spectral Coefficient Selection via Sinkhorn-Constrained Composition

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

1+阅读 · 今天16:54

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

1+阅读 · 今天16:52

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

【阿姆斯特丹博士论文】神经网络表示中的结构约束，125页pdf

【阿姆斯特丹博士论文】神经网络表示中的结构约束，125页pdf

专知会员服务

39+阅读 · 2024年2月18日

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

专知会员服务

63+阅读 · 2020年7月12日

【ICML2020】序数非负矩阵分解推荐，On the Number of Linear Regions of Convolutional Neural Networks

【ICML2020】序数非负矩阵分解推荐，On the Number of Linear Regions of Convolutional Neural Networks

专知会员服务

17+阅读 · 2020年6月4日

超越三元组:基于超关系知识图谱嵌入的链接预测，Beyond Triplets: Hyper-Relational Knowledge Graph Embedding for Link Prediction

专知会员服务

78+阅读 · 2020年5月11日

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

专知会员服务

26+阅读 · 2020年4月2日

【CVPR2020】用于图像超分辨率的深度展开网络，Deep Unfolding Network for Image Super-Resolution

【CVPR2020】用于图像超分辨率的深度展开网络，Deep Unfolding Network for Image Super-Resolution

专知会员服务

44+阅读 · 2020年3月26日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

【论文推荐】几何图形卷积网络，GEOM-GCN: GEOMETRIC GRAPH CONVOLUTIONAL NETWORKS

【论文推荐】几何图形卷积网络，GEOM-GCN: GEOMETRIC GRAPH CONVOLUTIONAL NETWORKS

专知会员服务

77+阅读 · 2020年2月5日

【论文】双曲图卷积神经网络（Hyperbolic Graph Convolutional Neural Networks），斯坦福大学| Ines Chami，斯坦福大学| Rex Ying

【论文】双曲图卷积神经网络（Hyperbolic Graph Convolutional Neural Networks），斯坦福大学| Ines Chami，斯坦福大学| Rex Ying

专知会员服务

116+阅读 · 2019年12月30日

【ECML-PKDD 2019】突破可解释性障碍——解释深度图卷积模型的一种方法（Breaking the interpretability barrier - a methodfor interpreting deep graph convolutional models）

【ECML-PKDD 2019】突破可解释性障碍——解释深度图卷积模型的一种方法（Breaking the interpretability barrier - a methodfor interpreting deep graph convolutional models）

专知会员服务

19+阅读 · 2019年12月1日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

使用 Keras Tuner 调节超参数

使用 Keras Tuner 调节超参数

TensorFlow

15+阅读 · 2020年2月6日

CVPR2019教程《胶囊网络（Capsule Networks）综述》，附93页PPT

CVPR2019教程《胶囊网络（Capsule Networks）综述》，附93页PPT

GAN生成式对抗网络

29+阅读 · 2019年6月21日

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

泡泡机器人SLAM

36+阅读 · 2019年4月28日

图卷积神经网络的变种与挑战【附PPT与视频资料】

图卷积神经网络的变种与挑战【附PPT与视频资料】

人工智能前沿讲习班

28+阅读 · 2018年12月28日

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月13日

三味Capsule：矩阵Capsule与EM路由

三味Capsule：矩阵Capsule与EM路由

PaperWeekly

10+阅读 · 2018年3月2日

网络节点表示学习论文笔记01—AAAI2018超网络节点表示学习

网络节点表示学习论文笔记01—AAAI2018超网络节点表示学习

专知

15+阅读 · 2018年2月9日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

74+阅读 · 2017年11月8日

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

机器之心

12+阅读 · 2017年11月7日

相关论文

BHyGNN+: Unsupervised Representation Learning for Heterophilic Hypergraphs

Arxiv

0+阅读 · 2月16日

Confounding Robust Continuous Control via Automatic Reward Shaping

Arxiv

0+阅读 · 2月10日

Empirical Stability Analysis of Kolmogorov-Arnold Networks in Hard-Constrained Recurrent Physics-Informed Discovery

Arxiv

0+阅读 · 2月10日

FlashSinkhorn: IO-Aware Entropic Optimal Transport

Arxiv

0+阅读 · 2月10日

Improved Approximate Regret for Decentralized Online Continuous Submodular Maximization via Reductions

Arxiv

0+阅读 · 2月10日

Differentiable Logic Synthesis: Spectral Coefficient Selection via Sinkhorn-Constrained Composition

Arxiv

0+阅读 · 2月9日

Physical Analog Kolmogorov-Arnold Networks based on Reconfigurable Nonlinear-Processing Units

Arxiv

0+阅读 · 2月7日

Imbalance-Robust and Sampling-Efficient Continuous Conditional GANs via Adaptive Vicinity and Auxiliary Regularization

Arxiv

0+阅读 · 2月3日

A Cosine Network for Image Super-Resolution

Arxiv

0+阅读 · 1月23日

Differentiable Logic Synthesis: Spectral Coefficient Selection via Sinkhorn-Constrained Composition

Arxiv

0+阅读 · 1月20日

相关基金

新型超导纳米线材料中Majorana束缚态的能谱与输运特性

国家自然科学基金

0+阅读 · 2016年12月31日

SiC纳米线/CVD石墨烯/热解炭复合材料制备、界面结构与力学性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

超强耦合下受限量子系统的量子相干效应及其量子调控

国家自然科学基金

0+阅读 · 2015年12月31日

连续时间马氏决策过程受约束问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

K连通抗毁性拓扑条件下异构群体的协同一致

国家自然科学基金

1+阅读 · 2015年12月31日

二维超材料中 Maxwell 方程组高阶 Nedelec 混合有限元超收敛研究

国家自然科学基金

0+阅读 · 2015年12月31日

Snk-SPAR通路介导微波辐射后树突棘可塑性异常的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

超高交联聚苯胺的合成、结构及其对重金属离子和溶解性有机物的共吸附机理

国家自然科学基金

0+阅读 · 2015年12月31日

关于二阶锥互补约束数学规划问题的约束规范和算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于异构连通需求的M2M网络拓扑控制机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员