Debugging data races is a major challenge for students learning parallel programming due to the non-deterministic nature of concurrent execution and the complexity of shared-memory semantics. Recent advances in Large Language Models (LLMs) suggest that they could serve as AI teaching assistants, but the capabilities of lower-cost open-weight models for parallel debugging remain unclear. In this paper, we evaluate two Gemma4 open-weight models, Gemma4-E4B and Gemma4-31B, on their ability to identify, explain, and repair data races in OpenMP programs from the DataRaceBench benchmark suite. We also investigate whether contextual hints, including ThreadSanitizer (TSan) reports and model-generated explanations, improve repair quality. Our results show that Gemma4-E4B correctly explained 82 of 104 race-condition programs and successfully repaired 73, while Gemma4-31B achieved 100 correct explanations and 98 successful repairs. Surprisingly, additional context did not consistently improve repair effectiveness and sometimes reduced performance. These findings suggest that open-weight LLMs can provide valuable support for student self-debugging, with larger models offering near-complete coverage of the benchmark suite.


翻译:调试数据竞争是学习并行编程的学生面临的主要挑战,其根源在于并发执行的非确定性以及共享内存语义的复杂性。近年来大语言模型的进展表明,它们可作为AI教学助手,但低成本开源权重模型在并行调试方面的能力仍不明确。本文评估了两种Gemma4开源权重模型(Gemma4-E4B和Gemma4-31B)对DataRaceBench基准测试套件中OpenMP程序的数据竞争识别、解释及修复能力。我们同时探究了包含线程清理器(TSan)报告与模型生成解释的上下文提示是否能提升修复质量。实验结果显示:Gemma4-E4B正确解释了104个竞态程序中的82个并成功修复73个,而Gemma4-31B实现了100个正确解释与98个成功修复。令人意外的是,额外上下文并未持续提升修复效果,有时反而降低了性能。这些发现表明,开源权重大语言模型可为学生的自主调试提供有效支持,其中较大模型几乎能完整覆盖基准测试套件。

0
下载
关闭预览

相关内容

大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
【2023新书】并行算法,Parallel Algorithms ,400页pdf
专知会员服务
72+阅读 · 2023年8月6日
【MIT博士论文】机器学习模型调试的有效工具,149页pdf
专知会员服务
48+阅读 · 2023年3月29日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
【2023新书】并行算法,Parallel Algorithms ,400页pdf
专知会员服务
72+阅读 · 2023年8月6日
【MIT博士论文】机器学习模型调试的有效工具,149页pdf
专知会员服务
48+阅读 · 2023年3月29日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员