Curriculum Learning (CL) aims to improve the outcome of model training by estimating the difficulty of samples and scheduling them accordingly. In NLP, difficulty is commonly approximated using task-agnostic linguistic heuristics or human intuition, implicitly assuming that these signals correlate with what neural models find difficult to learn. We propose a four-quadrant categorisation of difficulty signals -- human vs. model and task-agnostic vs. task-dependent -- and systematically analyse their interactions on a natural language understanding dataset. We find that task-agnostic features behave largely independently and that only task-dependent features align. These findings challenge common CL intuitions and highlight the need for lightweight, task-dependent difficulty estimators that better reflect model learning behaviour.


翻译:课程学习旨在通过估计样本难度并据此安排训练顺序来改进模型训练效果。在自然语言处理领域,难度通常通过任务无关的语言学启发式方法或人类直觉进行近似估计,这隐含地假设这些信号与神经网络模型的学习难点相关。我们提出了难度信号的四种分类象限——人类评估与模型评估、任务无关与任务相关,并在自然语言理解数据集上系统分析了它们的相互作用。研究发现:任务无关特征基本保持独立行为,只有任务相关特征呈现一致性。这些发现挑战了课程学习的常见直觉认知,并凸显了开发轻量级、任务相关的难度估计器的必要性,以更准确地反映模型的学习行为。

0
下载
关闭预览

相关内容

最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
61+阅读 · 2020年10月27日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
专栏 | NLP概述和文本自动分类算法详解
机器之心
12+阅读 · 2018年7月24日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
61+阅读 · 2020年10月27日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员