Math Word Problems (MWP) aims to automatically solve mathematical questions given in texts. Previous studies tend to design complex models to capture additional information in the original text so as to enable the model to gain more comprehensive features. In this paper, we turn our attention in the opposite direction, and work on how to discard redundant features containing spurious correlations for MWP. To this end, we design an Expression Syntax Information Bottleneck method for MWP (called ESIB) based on variational information bottleneck, which extracts essential features of expression syntax tree while filtering latent-specific redundancy containing syntax-irrelevant features. The key idea of ESIB is to encourage multiple models to predict the same expression syntax tree for different problem representations of the same problem by mutual learning so as to capture consistent information of expression syntax tree and discard latent-specific redundancy. To improve the generalization ability of the model and generate more diverse expressions, we design a self-distillation loss to encourage the model to rely more on the expression syntax information in the latent space. Experimental results on two large-scale benchmarks show that our model not only achieves state-of-the-art results but also generates more diverse solutions. The code is available in https://github.com/menik1126/math_ESIB.


翻译:数学应用题(MWP)旨在自动求解文本形式的数学问题。先前的研究倾向于设计复杂模型以捕捉原始文本中的额外信息,从而使模型获得更全面的特征。本文则转向相反方向,研究如何为数学应用题丢弃包含虚假相关性的冗余特征。为此,我们基于变分信息瓶颈设计了一种用于数学应用题的表达式语法信息瓶颈方法(称为ESIB),该方法在提取表达式语法树本质特征的同时,过滤掉包含语法无关特征的潜在特定冗余。ESIB的核心思想是通过相互学习,鼓励多个模型针对同一问题的不同问题表示预测出相同的表达式语法树,从而捕捉表达式语法树的一致性信息并丢弃潜在特定冗余。为提升模型的泛化能力并生成更多样化的表达式,我们设计了一种自蒸馏损失,以鼓励模型更多地依赖潜在空间中的表达式语法信息。在两个大规模基准测试上的实验结果表明,我们的模型不仅取得了最先进的结果,而且能生成更多样化的解。代码可在 https://github.com/menik1126/math_ESIB 获取。

0
下载
关闭预览

相关内容

数学是关于数量、结构、变化等主题的探索。
智能的基础:从人类认知视角综述数学文字题研究
专知会员服务
16+阅读 · 2025年11月11日
【阿姆斯特丹博士论文】表示学习中的信息理论
专知会员服务
23+阅读 · 2025年7月18日
【ICML2025】学习最优多模态信息瓶颈表示
专知会员服务
11+阅读 · 2025年5月28日
综述:军事应用中使用的一些重要算法
专知
12+阅读 · 2022年7月3日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
从信息瓶颈理论一瞥机器学习的“大一统理论”
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年8月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
智能的基础:从人类认知视角综述数学文字题研究
专知会员服务
16+阅读 · 2025年11月11日
【阿姆斯特丹博士论文】表示学习中的信息理论
专知会员服务
23+阅读 · 2025年7月18日
【ICML2025】学习最优多模态信息瓶颈表示
专知会员服务
11+阅读 · 2025年5月28日
相关资讯
综述:军事应用中使用的一些重要算法
专知
12+阅读 · 2022年7月3日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
从信息瓶颈理论一瞥机器学习的“大一统理论”
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年8月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员