神经语言模型刺激贫乏论点的统一评估 (A Unified Assessment of the Poverty of the Stimulus Argument for Neural Language Models) - 专知论文

会员服务 ·

0

约束 · 泛化 · 偏置 · 神经语言模型 · 语言模型 ·

A Unified Assessment of the Poverty of the Stimulus Argument for Neural Language Models

翻译：神经语言模型刺激贫乏论点的统一评估

Xiulin Yang,Arianna Bisazza,Nathan Schneider,Ethan Gotlieb Wilcox

How can children acquire native-level syntax from limited input? According to the Poverty of the Stimulus Hypothesis (PoSH), the linguistic input children receive is insufficient to explain certain generalizations that are robustly learned; innate linguistic constraints, many have argued, are thus necessary to explain language learning. Neural language models, which lack such language-specific constraints in their design, offer a computational test of this longstanding (but controversial) claim. We introduce \poshbench, a training-and-evaluation suite targeting question formation, islands to movement, and other English phenomena at the center of the PoSH arguments. Training Transformer models on 10--50M words of developmentally plausible text, we find indications of generalization on all phenomena even without direct positive evidence -- yet neural models remain less data-efficient and their generalizations are weaker than those of children. We further enhance our models with three recently proposed cognitively motivated inductive biases. We find these biases improve general syntactic competence but not \poshbench performance. Our findings challenge the claim that innate syntax is the only possible route to generalization, while suggesting that human-like data efficiency requires inductive biases beyond those tested here.

翻译：儿童如何从有限的输入中习得母语水平的句法？根据刺激贫乏假说，儿童接收的语言输入不足以解释某些被稳健习得的语言概括现象；因此许多学者认为，先天的语言约束对于解释语言学习是必要的。神经语言模型在设计上缺乏此类语言特异性约束，为这一长期存在（但具争议性）的论断提供了计算验证。我们提出\poshbench——一个针对疑问句形成、移位岛约束及其他处于刺激贫乏论证核心的英语语言现象的训练与评估套件。通过在1000万至5000万单词量级（符合儿童语言发展实际规模）的文本上训练Transformer模型，我们发现模型在所有语言现象上均显示出泛化迹象（即使缺乏直接正面证据），但神经模型的数据效率仍低于儿童，其泛化能力也弱于儿童。我们进一步为模型引入了三种近期提出的认知驱动归纳偏置。实验表明这些偏置能提升模型的整体句法能力，但并未改善\poshbench性能。我们的研究结果对"先天句法是实现泛化的唯一途径"这一论断提出挑战，同时表明要实现类人的数据效率，需要超越本文所测试范围的归纳偏置机制。

0

相关内容

【阿姆斯特丹博士论文】在语言模型中寻找结构

【阿姆斯特丹博士论文】在语言模型中寻找结构

专知会员服务

26+阅读 · 2024年11月27日

迈向大语言模型偏好学习的统一视角综述

迈向大语言模型偏好学习的统一视角综述

专知会员服务

24+阅读 · 2024年9月7日

【阿姆斯特丹博士论文】语言使用的神经模型：语境中语言理解和产出的研究

【阿姆斯特丹博士论文】语言使用的神经模型：语境中语言理解和产出的研究

专知会员服务

30+阅读 · 2023年12月12日

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

专知会员服务

58+阅读 · 2023年4月21日

【MIT博士论文】多模态模型学习语言，138页pdf

【MIT博士论文】多模态模型学习语言，138页pdf

专知会员服务

58+阅读 · 2022年12月23日

知识感知的预训练语言模型综述

专知会员服务

51+阅读 · 2021年9月25日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

10+阅读 · 2022年10月29日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

静息态fMRI联合DTI对rTMS干预亚急性期完全性失语症功能连接和结构连接的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于脑电网络分析的脑卒中患者言语认知康复评估方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

阈下情绪启动影响正常人及分裂型特质个体情绪判断的神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

Differences in Typological Alignment in Language Models' Treatment of Differential Argument Marking

Arxiv

0+阅读 · 2月19日

Provably Explaining Neural Additive Models

Arxiv

0+阅读 · 2月19日

Language Model Memory and Memory Models for Language

Arxiv

0+阅读 · 2月13日

Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?

Arxiv

0+阅读 · 2月13日

A Rule-based Computational Model for Gaidhlig Morphology

Arxiv

0+阅读 · 2月12日

A Systematic Evaluation of Large Language Models for PTSD Severity Estimation: The Role of Contextual Knowledge and Modeling Strategies

Arxiv

0+阅读 · 2月5日

Anticipatory Evaluation of Language Models

Arxiv

0+阅读 · 2月4日

NeuroFaith: Evaluating LLM Self-Explanation Faithfulness via Internal Representation Alignment

Arxiv

0+阅读 · 1月29日

Symphony: A Heuristic Normalized Calibrated Advantage Actor and Critic Algorithm in application for Humanoid Robots

Arxiv

0+阅读 · 1月25日

A Unified Neural Codec Language Model for Selective Editable Text to Speech Generation

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

神经语言模型

相关VIP内容

【阿姆斯特丹博士论文】在语言模型中寻找结构

【阿姆斯特丹博士论文】在语言模型中寻找结构

专知会员服务

26+阅读 · 2024年11月27日

迈向大语言模型偏好学习的统一视角综述

迈向大语言模型偏好学习的统一视角综述

专知会员服务

24+阅读 · 2024年9月7日

【阿姆斯特丹博士论文】语言使用的神经模型：语境中语言理解和产出的研究

【阿姆斯特丹博士论文】语言使用的神经模型：语境中语言理解和产出的研究

专知会员服务

30+阅读 · 2023年12月12日

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

专知会员服务

58+阅读 · 2023年4月21日

【MIT博士论文】多模态模型学习语言，138页pdf

【MIT博士论文】多模态模型学习语言，138页pdf

专知会员服务

58+阅读 · 2022年12月23日

知识感知的预训练语言模型综述

专知会员服务

51+阅读 · 2021年9月25日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

10+阅读 · 2022年10月29日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

相关论文

Differences in Typological Alignment in Language Models' Treatment of Differential Argument Marking

Arxiv

0+阅读 · 2月19日

Provably Explaining Neural Additive Models

Arxiv

0+阅读 · 2月19日

Language Model Memory and Memory Models for Language

Arxiv

0+阅读 · 2月13日

Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?

Arxiv

0+阅读 · 2月13日

A Rule-based Computational Model for Gaidhlig Morphology

Arxiv

0+阅读 · 2月12日

A Systematic Evaluation of Large Language Models for PTSD Severity Estimation: The Role of Contextual Knowledge and Modeling Strategies

Arxiv

0+阅读 · 2月5日

Anticipatory Evaluation of Language Models

Arxiv

0+阅读 · 2月4日

NeuroFaith: Evaluating LLM Self-Explanation Faithfulness via Internal Representation Alignment

Arxiv

0+阅读 · 1月29日

Symphony: A Heuristic Normalized Calibrated Advantage Actor and Critic Algorithm in application for Humanoid Robots

Arxiv

0+阅读 · 1月25日

A Unified Neural Codec Language Model for Selective Editable Text to Speech Generation

Arxiv

0+阅读 · 1月18日

相关基金

静息态fMRI联合DTI对rTMS干预亚急性期完全性失语症功能连接和结构连接的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于脑电网络分析的脑卒中患者言语认知康复评估方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

阈下情绪启动影响正常人及分裂型特质个体情绪判断的神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员