Symbolic regression (SR) aims to discover interpretable analytical expressions that accurately describe observed data. Amortized SR promises to be much more efficient than the predominant genetic programming SR methods, but currently struggles to scale to realistic scientific complexity. We find that a key obstacle is the lack of a fast reduction of equivalent expressions to a concise normalized form. Amortized SR has addressed this by general-purpose Computer Algebra Systems (CAS) like SymPy, but the high computational cost severely limits training and inference speed. We propose SimpliPy, a rule-based simplification engine achieving a 100-fold speed-up over SymPy at comparable quality. This enables substantial improvements in amortized SR, including scalability to much larger training sets, more efficient use of the per-expression token budget, and systematic training set decontamination with respect to equivalent test expressions. We demonstrate these advantages in our Flash-ANSR framework, which achieves much better accuracy than amortized baselines (NeSymReS, E2E) on the FastSRB benchmark. Moreover, it performs on par with state-of-the-art direct optimization (PySR) while recovering more concise instead of more complex expressions with increasing inference budget.


翻译:符号回归旨在发现可解释的解析表达式以精确描述观测数据。摊销式符号回归有望比主流的遗传编程符号回归方法高效得多,但目前难以扩展到实际科学问题的复杂度。我们发现一个关键障碍在于缺乏将等价表达式快速归约为简洁规范形式的方法。现有摊销式符号回归通过通用计算机代数系统(如SymPy)处理此问题,但高昂的计算成本严重限制了训练和推理速度。我们提出SimpliPy——基于规则的简化引擎,在保持相当质量的同时实现比SymPy快100倍的加速。这为摊销式符号回归带来显著改进:可扩展至更大规模训练集、更高效利用每表达式令牌预算,并能系统性地消除训练集中与测试表达式等价的污染数据。我们在Flash-ANSR框架中验证了这些优势,该框架在FastSRB基准测试中比摊销式基线方法(NeSymReS、E2E)获得显著更高的精度。此外,其性能与最先进的直接优化方法(PySR)相当,且随着推理预算增加能恢复更简洁而非更复杂的表达式。

0
下载
关闭预览

相关内容

《图简化(Graph Reduction)》最新综述
专知会员服务
31+阅读 · 2024年2月10日
从信息瓶颈理论一瞥机器学习的“大一统理论”
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
线性回归:简单线性回归详解
专知
12+阅读 · 2018年3月10日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 43分钟前
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关VIP内容
《图简化(Graph Reduction)》最新综述
专知会员服务
31+阅读 · 2024年2月10日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员