Children's acquisition of filler-gap dependencies has been argued by some to depend on innate grammatical knowledge, while others suggest that the distributional evidence available in child-directed speech suffices. Unfortunately, the relevant input is difficult to quantify at scale with fine granularity, making this question difficult to resolve. We present a system that identifies three core filler-gap constructions in spoken English corpora -- matrix wh-questions, embedded wh-questions, and relative clauses -- and further identifies the extraction site (i.e., subject vs. object vs. adjunct). Our approach combines constituency and dependency parsing, leveraging their complementary strengths for construction classification and extraction site identification. We validate the system on human-annotated data and find that it scores well across most categories. Applying the system to 57 English CHILDES corpora, we are able to characterize children's filler-gap input and their filler-gap production trajectories over the course of development, including construction-specific frequencies and extraction-site asymmetries. The resulting fine-grained labels enable future work in both acquisition and computational studies, which we demonstrate with a case study using filtered corpus training with language models.


翻译:儿童对填充语-空位依存关系的习得机制存在理论分歧:部分学者主张其依赖于先天的语法知识,而另一些研究者则认为儿童导向语中的分布证据已足够支撑习得过程。然而,由于相关输入难以进行细粒度的大规模量化,该问题长期悬而未决。本研究提出一个自动识别系统,能够检测英语口语语料中三类核心填充语-空位结构——主句wh疑问句、嵌套wh疑问句及关系从句,并进一步识别其提取位置(即主语/宾语/附加语)。该方法融合了成分句法分析与依存句法分析,通过两者的优势互补实现结构分类与提取位置判定。经人工标注数据验证,该系统在多数类别中表现良好。将系统应用于57个英语CHILDES语料库后,我们得以量化儿童接收的填充语-空位输入特征及其在发育过程中产出此类结构的发展轨迹,包括特定结构的频率分布与提取位置的不对称性。生成的细粒度标注数据可为语言习得与计算研究提供支持,我们通过语言模型的过滤语料训练案例研究展示了其应用潜力。

0
下载
关闭预览

相关内容

【CMU博士论文】语境:表征学习的机制
专知会员服务
19+阅读 · 2025年4月29日
【阿姆斯特丹博士论文】在语言模型中寻找结构
专知会员服务
26+阅读 · 2024年11月27日
专知会员服务
51+阅读 · 2021年9月25日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
3+阅读 · 今天11:13
电子战革命:塑造战场的十年突破(2015–2025)
专知会员服务
3+阅读 · 今天9:19
人工智能即服务与未来战争(印度视角)
专知会员服务
1+阅读 · 今天7:57
《美国战争部2027财年军事人员预算》
专知会员服务
1+阅读 · 今天7:44
伊朗战争中的电子战
专知会员服务
4+阅读 · 今天7:04
大语言模型平台在国防情报应用中的对比
专知会员服务
7+阅读 · 今天3:12
美海军“超配项目”
专知会员服务
6+阅读 · 今天2:13
相关VIP内容
【CMU博士论文】语境:表征学习的机制
专知会员服务
19+阅读 · 2025年4月29日
【阿姆斯特丹博士论文】在语言模型中寻找结构
专知会员服务
26+阅读 · 2024年11月27日
专知会员服务
51+阅读 · 2021年9月25日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
相关资讯
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员