Learning to Unscramble: Simplifying Symbolic Expressions via Self-Supervised Oracle Trajectories - 专知论文

会员服务 ·

0

监督 · 操作 · 路径 · 排列 · 等变 ·

Learning to Unscramble: Simplifying Symbolic Expressions via Self-Supervised Oracle Trajectories

翻译：学习解构：通过自监督预言轨迹简化符号表达式

from arxiv, 14 pages, 6 figures, 2 tables; work done in collaboration with Claude Code

We present a new self-supervised machine learning approach for symbolic simplification of complex mathematical expressions. Training data is generated by scrambling simple expressions and recording the inverse operations, creating oracle trajectories that provide both goal states and explicit paths to reach them. A permutation-equivariant, transformer-based policy network is then trained on this data step-wise to predict the oracle action given the input expression. We demonstrate this approach on two problems in high-energy physics: dilogarithm reduction and spinor-helicity scattering amplitude simplification. In both cases, our trained policy network achieves near perfect solve rates across a wide range of difficulty levels, substantially outperforming prior approaches based on reinforcement learning and end-to-end regression. When combined with contrastive grouping and beam search, our model achieves a 100\% full simplification rate on a representative selection of 5-point gluon tree-level amplitudes in Yang-Mills theory, including expressions with over 200 initial terms.

翻译：我们提出了一种新的自监督机器学习方法，用于复杂数学表达式的符号简化。训练数据通过打乱简单表达式并记录逆操作生成，形成同时提供目标状态及其显式到达路径的预言轨迹。随后，基于排列等变性的变换器策略网络逐步训练，以根据输入表达式预测预言动作。我们在高能物理的两个问题——二对数约化与旋量-螺旋度散射振幅简化——上验证了该方法。在这两种情况下，训练后的策略网络在广泛的难度级别上实现了近乎完美的求解率，显著优于基于强化学习和端到端回归的先前方法。当与对比分组和束搜索相结合时，我们的模型在杨-米尔斯理论中5点胶子树级振幅的代表性选择（包括包含200余个初始项的表达式）上实现了100%的完整简化率。

0

相关内容

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

专知会员服务

18+阅读 · 2024年3月15日

【博士论文】自监督学习视频表示

【博士论文】自监督学习视频表示

专知会员服务

26+阅读 · 2024年2月5日

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

专知会员服务

69+阅读 · 2023年1月29日

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

专知会员服务

39+阅读 · 2022年11月8日

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

专知会员服务

92+阅读 · 2022年6月13日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

何恺明团队新论文！自监督学习+Transformer=MoCoV3，解决训练不稳定性

专知会员服务

37+阅读 · 2021年4月7日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

自编码表示学习 25页最新进展综述，90篇参考文献

自编码表示学习 25页最新进展综述，90篇参考文献

专知

34+阅读 · 2018年12月18日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文笔记】自注意力机制学习句子embedding

【论文笔记】自注意力机制学习句子embedding

专知

15+阅读 · 2018年5月17日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向二进制程序的静态结构化符号执行与动态组合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

Self-Jailbreaking: Language Models Can Reason Themselves Out of Safety Alignment After Benign Reasoning Training

Arxiv

0+阅读 · 4月29日

Peer-Predictive Self-Training for Language Model Reasoning

Arxiv

0+阅读 · 4月24日

GCImOpt: Learning efficient goal-conditioned policies by imitating optimal trajectories

Arxiv

0+阅读 · 4月24日

Self-Guided Plan Extraction for Instruction-Following Tasks with Goal-Conditional Reinforcement Learning

Arxiv

0+阅读 · 4月22日

Peer-Predictive Self-Training for Language Model Reasoning

Arxiv

0+阅读 · 4月14日

Learning to Unscramble: Simplifying Symbolic Expressions via Self-Supervised Oracle Trajectories

Arxiv

0+阅读 · 4月11日

On the Asymptotics of Self-Supervised Pre-training: Two-Stage M-Estimation and Representation Symmetry

Arxiv

0+阅读 · 3月29日

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Arxiv

0+阅读 · 3月20日

Self-Supervised Learning for Time Series Analysis: Taxonomy, Progress, and Prospects

Arxiv

18+阅读 · 2023年6月16日

A Cookbook of Self-Supervised Learning

Arxiv

15+阅读 · 2023年4月24日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

专知会员服务

18+阅读 · 2024年3月15日

【博士论文】自监督学习视频表示

【博士论文】自监督学习视频表示

专知会员服务

26+阅读 · 2024年2月5日

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

专知会员服务

69+阅读 · 2023年1月29日

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

专知会员服务

39+阅读 · 2022年11月8日

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

专知会员服务

92+阅读 · 2022年6月13日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

何恺明团队新论文！自监督学习+Transformer=MoCoV3，解决训练不稳定性

专知会员服务

37+阅读 · 2021年4月7日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

自编码表示学习 25页最新进展综述，90篇参考文献

自编码表示学习 25页最新进展综述，90篇参考文献

专知

34+阅读 · 2018年12月18日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文笔记】自注意力机制学习句子embedding

【论文笔记】自注意力机制学习句子embedding

专知

15+阅读 · 2018年5月17日

相关论文

Self-Jailbreaking: Language Models Can Reason Themselves Out of Safety Alignment After Benign Reasoning Training

Arxiv

0+阅读 · 4月29日

Peer-Predictive Self-Training for Language Model Reasoning

Arxiv

0+阅读 · 4月24日

GCImOpt: Learning efficient goal-conditioned policies by imitating optimal trajectories

Arxiv

0+阅读 · 4月24日

Self-Guided Plan Extraction for Instruction-Following Tasks with Goal-Conditional Reinforcement Learning

Arxiv

0+阅读 · 4月22日

Peer-Predictive Self-Training for Language Model Reasoning

Arxiv

0+阅读 · 4月14日

Learning to Unscramble: Simplifying Symbolic Expressions via Self-Supervised Oracle Trajectories

Arxiv

0+阅读 · 4月11日

On the Asymptotics of Self-Supervised Pre-training: Two-Stage M-Estimation and Representation Symmetry

Arxiv

0+阅读 · 3月29日

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Arxiv

0+阅读 · 3月20日

Self-Supervised Learning for Time Series Analysis: Taxonomy, Progress, and Prospects

Arxiv

18+阅读 · 2023年6月16日

A Cookbook of Self-Supervised Learning

Arxiv

15+阅读 · 2023年4月24日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向二进制程序的静态结构化符号执行与动态组合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员