Despite a growing body of work at the intersection of deep learning and formal languages, there has been relatively little systematic exploration of transformer models for reasoning about typed lambda calculi. This is an interesting area of inquiry for two reasons. First, typed lambda calculi are the lingua franc of programming languages. A set of heuristics that relate various typed lambda calculi to effective neural architectures would provide a systematic method for mapping language features (e.g., polymorphism, subtyping, inheritance, etc.) to architecture choices. Second, transformer models are widely used in deep learning architectures applied to code, but the design and hyperparameter space for them is large and relatively unexplored in programming language applications. Therefore, we suggest a benchmark that allows us to explore exactly this through perhaps the simplest and most fundamental property of a programming language: the relationship between terms and types. Consequently, we begin this inquiry of transformer architectures for typed lambda calculi by exploring the effect of transformer warm-up and optimizer selection in the task of type inference: i.e., predicting the types of lambda calculus terms using only transformers. We find that the optimization landscape is difficult even in this simple setting. One particular experimental finding is that optimization by Adafactor converges much faster compared to the optimization by Adam and RAdam. We conjecture that such different performance of optimizers might be related to the difficulties of generalization over formally generated dataset.


翻译:尽管深度学习和形式语言的交叉研究日益增多,但针对类型化λ演算推理的Transformer模型系统探索仍相对有限。这一研究领域具有双重意义:首先,类型化λ演算是编程语言的通用语言。建立将不同类型化λ演算与有效神经架构相关联的启发式方法,可为语言特性(如多态性、子类型化、继承等)到架构选择的映射提供系统方法论。其次,Transformer模型广泛应用于代码相关的深度学习架构中,但其设计与超参数空间在编程语言应用中仍存在大量未探索领域。因此,我们提出一个基准测试,通过编程语言最基本属性——项与类型的关系来精确探索该问题。我们以类型推断任务(即仅用Transformer预测λ演算项的类别)为切入点,考察Transformer预热策略与优化器选择的影响。实验表明,即使在如此简单的设定下,优化过程仍充满挑战。其中一项关键发现是:Adafactor优化器的收敛速度显著快于Adam和RAdam。我们推测,不同优化器性能差异可能与形式化生成数据集上的泛化困难有关。

0
下载
关闭预览

相关内容

【2022新书】深度学习R语言实战,第二版,568页pdf
专知会员服务
86+阅读 · 2022年10月23日
专知会员服务
124+阅读 · 2020年9月8日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【ECCV2018】24篇论文代码实现
专知
17+阅读 · 2018年9月10日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
深度学习医学图像分析文献集
机器学习研究会
19+阅读 · 2017年10月13日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Soft Merging of Experts with Adaptive Routing
Arxiv
0+阅读 · 2023年6月6日
Arxiv
37+阅读 · 2021年8月2日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
19+阅读 · 2020年7月21日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
最新内容
AgentOps综述:智能体系统运维框架
专知会员服务
2+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
4+阅读 · 6月4日
《人工智能的挑战:算法战的想象与现实》
专知会员服务
4+阅读 · 6月4日
首场人工智能战争:Maven如何重塑武装冲突
专知会员服务
4+阅读 · 6月4日
《通往人工通用智能之路上的均衡策略》
专知会员服务
7+阅读 · 6月3日
《Palantir的科技生态系统》
专知会员服务
17+阅读 · 6月2日
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【ECCV2018】24篇论文代码实现
专知
17+阅读 · 2018年9月10日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
深度学习医学图像分析文献集
机器学习研究会
19+阅读 · 2017年10月13日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员