Symbolic regression (SR) with genetic programming (GP) aims to discover interpretable mathematical expressions directly from data. Despite its strong empirical success, the theoretical understanding of why GP-based SR generalizes beyond the training data remains limited. In this work, we provide a learning-theoretic analysis of SR models represented as expression trees. We derive a generalization bound for GP-style SR under constraints on tree size, depth, and learnable constants. Our result decomposes the generalization gap into two interpretable components: a structure-selection term, reflecting the combinatorial complexity of choosing an expression-tree structure, and a constant-fitting term, capturing the complexity of optimizing numerical constants within a fixed structure. This decomposition provides a theoretical perspective on several widely used practices in GP, including parsimony pressure, depth limits, numerically stable operators, and interval arithmetic. In particular, our analysis shows how structural restrictions reduce hypothesis-class growth while stability mechanisms control the sensitivity of predictions to parameter perturbations. By linking these practical design choices to explicit complexity terms in the generalization bound, our work offers a principled explanation for commonly observed empirical behaviors in GP-based SR and contributes towards a more rigorous understanding of its generalization properties.


翻译:摘要:基于遗传编程(GP)的符号回归(SR)旨在直接从数据中发现可解释的数学表达式。尽管其实验效果显著,但为何基于GP的符号回归能够泛化到训练数据之外的理论理解仍十分有限。本文针对以表达式树表示的SR模型提供了学习理论分析。我们推导出在树规模、深度和可学习常数约束下GP式SR的泛化界。该结果将泛化差距分解为两个可解释分量:结构选择项(反映选择表达式树结构的组合复杂度)和常数拟合项(捕捉固定结构内优化数值常数的复杂度)。该分解为GP中若干广泛使用的实践(包括简约压力、深度限制、数值稳定算子和区间算术)提供了理论视角。特别地,我们的分析表明结构约束如何降低假设类的复杂度,而稳定性机制如何控制预测对参数扰动的敏感性。通过将这些实践设计选择与泛化界中的显式复杂度项相联系,本文为基于GP的符号回归中常见经验行为提供了原理性解释,并有助于更严谨地理解其泛化特性。

0
下载
关闭预览

相关内容

【DTU博士论文】结构化表示学习的泛化
专知会员服务
53+阅读 · 2023年4月27日
最新《高斯过程回归简明教程》,19页pdf
专知会员服务
73+阅读 · 2020年9月30日
知识图谱嵌入的Translate模型汇总(TransE,TransH,TransR,TransD)
深度学习自然语言处理
31+阅读 · 2020年6月12日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
数据分析师应该知道的16种回归方法:定序回归
数萃大数据
16+阅读 · 2018年9月9日
入门 | 一文介绍机器学习中基本的数学符号
机器之心
28+阅读 · 2018年4月9日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
GAFT:一个使用 Python 实现的遗传算法框架
Python开发者
10+阅读 · 2017年8月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月1日
Arxiv
0+阅读 · 3月18日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【DTU博士论文】结构化表示学习的泛化
专知会员服务
53+阅读 · 2023年4月27日
最新《高斯过程回归简明教程》,19页pdf
专知会员服务
73+阅读 · 2020年9月30日
相关资讯
知识图谱嵌入的Translate模型汇总(TransE,TransH,TransR,TransD)
深度学习自然语言处理
31+阅读 · 2020年6月12日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
数据分析师应该知道的16种回归方法:定序回归
数萃大数据
16+阅读 · 2018年9月9日
入门 | 一文介绍机器学习中基本的数学符号
机器之心
28+阅读 · 2018年4月9日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
GAFT:一个使用 Python 实现的遗传算法框架
Python开发者
10+阅读 · 2017年8月1日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员