Automated analysis of K-12 classroom dynamics faces challenges due to background noise and variable child speech, often confounding acoustic-only models. This study evaluates a multimodal speaker identification framework anchoring acoustic embeddings with LLM-derived semantic context. Using a subset of the EDSI dataset (8 math classrooms, N = 2,801 utterances), we found an acoustic baseline (ECAPA-TDNN) achieved only 39.0% accuracy. By integrating transcript-based "contextual anchoring" into a gradient boosting classifier, our multimodal approach raised student identification to 50.3%. Performance also improved for utterances over 5 seconds, reaching 76.9% accuracy (vs. 64.9% baseline) with a 90.9% Top-3 accuracy. Additionally, the model distinguished teacher vs. student roles with 99.3% accuracy. This approach advances the feasibility of automated feedback systems capable of considering individual student participation, a crucial step for supporting equitable instruction at scale.


翻译:K-12课堂动态的自动化分析面临背景噪声和儿童语音多变性的挑战,这常常使纯声学模型性能受限。本研究评估了一种将声学嵌入与基于大语言模型(LLM)的语义上下文相结合的多模态说话人识别框架。利用EDSI数据集子集(8个数学课堂,N=2801条语句),我们发现声学基线模型(ECAPA-TDNN)仅达到39.0%的准确率。通过将基于转录文本的“上下文锚定”融入梯度提升分类器,我们的多模态方法将学生识别准确率提升至50.3%。对于时长超过5秒的语句,性能进一步改善:准确率达76.9%(基线为64.9%),Top-3准确率达90.9%。此外,该模型区分教师与学生角色的准确率达99.3%。该方法推动了自动化反馈系统的可行性发展,使其能够考虑个体学生的参与情况,这是支持大规模公平教学的关键步骤。

0
下载
关闭预览

相关内容

多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
【报告】多模态大型语言模型综述,30页ppt
专知会员服务
73+阅读 · 2024年8月29日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
多模态大语言模型
专知会员服务
98+阅读 · 2024年6月25日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 5月18日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
【报告】多模态大型语言模型综述,30页ppt
专知会员服务
73+阅读 · 2024年8月29日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
多模态大语言模型
专知会员服务
98+阅读 · 2024年6月25日
使用多模态语言模型生成图像
专知会员服务
32+阅读 · 2023年8月23日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员