利用大型语言模型为开放式编程问题中的知识组件级正确性标注 (Using LLMs for Knowledge Component-level Correctness Labeling in Open-ended Coding Problems) - 专知论文

会员服务 ·

0

知识 · 正确性 · 标注 · 编程 · 代码 ·

Using LLMs for Knowledge Component-level Correctness Labeling in Open-ended Coding Problems

翻译：利用大型语言模型为开放式编程问题中的知识组件级正确性标注

Zhangqi Duan,Arnav Kankaria,Dhruv Kartik,Andrew Lan

Fine-grained skill representations, commonly referred to as knowledge components (KCs), are fundamental to many approaches in student modeling and learning analytics. However, KC-level correctness labels are rarely available in real-world datasets, especially for open-ended programming tasks where solutions typically involve multiple KCs simultaneously. Simply propagating problem-level correctness to all associated KCs obscures partial mastery and often leads to poorly fitted learning curves. To address this challenge, we propose an automated framework that leverages large language models (LLMs) to label KC-level correctness directly from student-written code. Our method assesses whether each KC is correctly applied and further introduces a temporal context-aware Code-KC mapping mechanism to better align KCs with individual student code. We evaluate the resulting KC-level correctness labels in terms of learning curve fit and predictive performance using the power law of practice and the Additive Factors Model. Experimental results show that our framework leads to learning curves that are more consistent with cognitive theory and improves predictive performance, compared to baselines. Human evaluation further demonstrates substantial agreement between LLM and expert annotations.

翻译：细粒度技能表征（通常称为知识组件，KCs）是学生建模与学习分析中许多方法的基础。然而，在实际数据集中，尤其是在通常同时涉及多个知识组件的开放式编程任务中，知识组件级别的正确性标签很少可用。简单地将问题级别的正确性传播到所有关联的知识组件会掩盖部分掌握情况，并常常导致拟合不佳的学习曲线。为应对这一挑战，我们提出了一种自动化框架，利用大型语言模型（LLMs）直接从学生编写的代码中标注知识组件级别的正确性。我们的方法评估每个知识组件是否正确应用，并进一步引入一种时序上下文感知的代码-知识组件映射机制，以更好地将知识组件与个体学生代码对齐。我们使用练习幂律和加性因素模型，从学习曲线拟合和预测性能两方面评估所得的知识组件级别正确性标签。实验结果表明，与基线方法相比，我们的框架产生的学习曲线更符合认知理论，并提升了预测性能。人工评估进一步表明，大型语言模型与专家标注之间具有高度一致性。

0

相关内容

大模型推理时代的知识编辑

大模型推理时代的知识编辑

专知会员服务

30+阅读 · 2025年12月22日

大型语言模型（LLM）赋能的知识图谱构建：综述

大型语言模型（LLM）赋能的知识图谱构建：综述

专知会员服务

54+阅读 · 2025年10月24日

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

55+阅读 · 2025年3月16日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

大语言模型增强知识表示学习综述

大语言模型增强知识表示学习综述

专知会员服务

69+阅读 · 2024年7月2日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

70+阅读 · 2024年6月30日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

专知会员服务

15+阅读 · 2019年12月3日

CCKS 2019 知识图谱评测技术报告：实体、关系、事件及问答

CCKS 2019 知识图谱评测技术报告：实体、关系、事件及问答

专知

24+阅读 · 2020年3月11日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

NAACL 2019开源论文：基于胶囊网络的知识图谱完善和个性化搜索

NAACL 2019开源论文：基于胶囊网络的知识图谱完善和个性化搜索

PaperWeekly

18+阅读 · 2019年10月28日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

57页清华大学孙茂松组《知识表示学习》综述论文

57页清华大学孙茂松组《知识表示学习》综述论文

专知

27+阅读 · 2018年12月31日

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

开放知识图谱

25+阅读 · 2018年12月20日

主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

机器学习研究会

40+阅读 · 2017年11月16日

【专知荟萃16】主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

【专知荟萃16】主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

专知

21+阅读 · 2017年11月15日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

Large Language Models as Automatic Annotators and Annotation Adjudicators for Fine-Grained Opinion Analysis

Arxiv

0+阅读 · 2月18日

What Should Feature Distillation Transfer in LLMs? A Task-Tangent Geometry View

Arxiv

0+阅读 · 2月10日

Evaluating and Calibrating LLM Confidence on Questions with Multiple Correct Answers

Arxiv

0+阅读 · 2月8日

From Evaluation to Enhancement: Large Language Models for Zero-Knowledge Proof Code Generation

Arxiv

0+阅读 · 1月31日

Next Token Knowledge Tracing: Exploiting Pretrained LLM Representations to Decode Student Behaviour

Arxiv

0+阅读 · 1月26日

Large Language Models as Automatic Annotators and Annotation Adjudicators for Fine-Grained Opinion Analysis

Arxiv

0+阅读 · 1月23日

On LLMs' Internal Representation of Code Correctness

Arxiv

0+阅读 · 1月21日

OpenLearnLM Benchmark: A Unified Framework for Evaluating Knowledge, Skill, and Attitude in Educational Large Language Models

Arxiv

0+阅读 · 1月20日

Changes in Coding Behavior and Performance Since the Introduction of LLMs

Arxiv

0+阅读 · 1月16日

Finding the Translation Switch: Discovering and Exploiting the Task-Initiation Features in LLMs

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

相关VIP内容

大模型推理时代的知识编辑

大模型推理时代的知识编辑

专知会员服务

30+阅读 · 2025年12月22日

大型语言模型（LLM）赋能的知识图谱构建：综述

大型语言模型（LLM）赋能的知识图谱构建：综述

专知会员服务

54+阅读 · 2025年10月24日

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

55+阅读 · 2025年3月16日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

大语言模型增强知识表示学习综述

大语言模型增强知识表示学习综述

专知会员服务

69+阅读 · 2024年7月2日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

70+阅读 · 2024年6月30日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

专知会员服务

15+阅读 · 2019年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

CCKS 2019 知识图谱评测技术报告：实体、关系、事件及问答

CCKS 2019 知识图谱评测技术报告：实体、关系、事件及问答

专知

24+阅读 · 2020年3月11日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

NAACL 2019开源论文：基于胶囊网络的知识图谱完善和个性化搜索

NAACL 2019开源论文：基于胶囊网络的知识图谱完善和个性化搜索

PaperWeekly

18+阅读 · 2019年10月28日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

57页清华大学孙茂松组《知识表示学习》综述论文

57页清华大学孙茂松组《知识表示学习》综述论文

专知

27+阅读 · 2018年12月31日

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

技术动态 | TechKG：一个面向中文学术领域的大型知识图谱

开放知识图谱

25+阅读 · 2018年12月20日

主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

机器学习研究会

40+阅读 · 2017年11月16日

【专知荟萃16】主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

【专知荟萃16】主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

专知

21+阅读 · 2017年11月15日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

相关论文

Large Language Models as Automatic Annotators and Annotation Adjudicators for Fine-Grained Opinion Analysis

Arxiv

0+阅读 · 2月18日

What Should Feature Distillation Transfer in LLMs? A Task-Tangent Geometry View

Arxiv

0+阅读 · 2月10日

Evaluating and Calibrating LLM Confidence on Questions with Multiple Correct Answers

Arxiv

0+阅读 · 2月8日

From Evaluation to Enhancement: Large Language Models for Zero-Knowledge Proof Code Generation

Arxiv

0+阅读 · 1月31日

Next Token Knowledge Tracing: Exploiting Pretrained LLM Representations to Decode Student Behaviour

Arxiv

0+阅读 · 1月26日

Large Language Models as Automatic Annotators and Annotation Adjudicators for Fine-Grained Opinion Analysis

Arxiv

0+阅读 · 1月23日

On LLMs' Internal Representation of Code Correctness

Arxiv

0+阅读 · 1月21日

OpenLearnLM Benchmark: A Unified Framework for Evaluating Knowledge, Skill, and Attitude in Educational Large Language Models

Arxiv

0+阅读 · 1月20日

Changes in Coding Behavior and Performance Since the Introduction of LLMs

Arxiv

0+阅读 · 1月16日

Finding the Translation Switch: Discovering and Exploiting the Task-Initiation Features in LLMs

Arxiv

0+阅读 · 1月16日

相关基金

知识不确定性度量的粒计算模型及其应用研究

国家自然科学基金

1+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员