Evaluating the quality of children's utterances in adult-child dialogue remains challenging due to insufficient context-sensitive metrics. Common proxies such as Mean Length of Utterance (MLU), lexical diversity (vocd-D), and readability indices (Flesch-Kincaid Grade Level, Gunning Fog Index) are dominated by length and ignore conversational context, missing aspects of response quality such as reasoning depth, topic maintenance, and discourse planning. We introduce an LLM-as-a-judge framework that first classifies the Previous Adult Utterance Type and then scores the child's response along two axes: Expansion (contextual elaboration and inferential depth) and Independence (the child's contribution to advancing the discourse). These axes reflect fundamental dimensions in child language development, where Expansion captures elaboration, clause combining, and causal and contrastive connectives. Independence captures initiative, topic control, decreasing reliance on adult scaffolding through growing self-regulation, and audience design. We establish developmental validity by showing age-related patterns and demonstrate predictive value by improving age estimation over common baselines. We further confirm semantic sensitivity by detecting differences tied to discourse relations. Our metrics align with human judgments, enabling large-scale evaluation. This shifts child utterance assessment from simply measuring length to evaluating how meaningfully the child's speech contributes to and advances the conversation within its context.


翻译:评估成人-儿童对话中儿童话语的质量仍然具有挑战性,主要原因是缺乏足够的语境敏感指标。常用的代理指标,如平均话语长度(MLU)、词汇多样性(vocd-D)和可读性指数(Flesch-Kincaid 年级水平、Gunning Fog 指数),主要由长度主导且忽略了对话语境,因而遗漏了回应质量的诸多方面,例如推理深度、话题维持和语篇规划。我们引入了一个LLM-as-a-judge框架,该框架首先对先前成人话语类型进行分类,然后沿着两个轴对儿童的回应进行评分:扩展性(语境阐述和推理深度)和独立性(儿童对推进语篇的贡献)。这两个轴反映了儿童语言发展的基本维度,其中扩展性捕捉了阐述、从句组合以及因果和对比连接词的使用。独立性则捕捉了主动性、话题控制力、通过日益增强的自我调节减少对成人支架的依赖,以及受众设计。我们通过展示与年龄相关的模式确立了发展效度,并通过改进年龄估计(相较于常见基线)证明了其预测价值。我们进一步通过检测与语篇关系相关的差异,确认了其语义敏感性。我们的指标与人类判断一致,从而能够进行大规模评估。这将儿童话语评估从简单地测量长度,转向评估儿童的言语在其语境中如何有意义地贡献于并推进对话。

0
下载
关闭预览

相关内容

个性化大型语言模型综述:进展与未来方向
专知会员服务
43+阅读 · 2025年2月18日
扩展英语大语言模型到新语言的综述
专知会员服务
18+阅读 · 2024年8月15日
《大型语言模型自然语言生成评估》综述
专知会员服务
72+阅读 · 2024年1月20日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
【综述论文】2020年最新深度学习自然语言处理进展综述论文!!!
深度学习自然语言处理
13+阅读 · 2020年4月6日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员