scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns - 专知论文

会员服务 ·

0

代码 · 工具 · 精度 · Python · 模型生成 ·

scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns

翻译：scicode-lint：利用大模型生成模式检测科学Python代码中的方法论错误

Sergey V. Samsonau

Methodology bugs in scientific Python code produce plausible but incorrect results that traditional linters and static analysis tools cannot detect. Several research groups have built ML-specific linters, demonstrating that detection is feasible. Yet these tools share a sustainability problem: dependency on specific pylint or Python versions, limited packaging, and reliance on manual engineering for every new pattern. As AI-generated code increases the volume of scientific software, the need for automated methodology checking (such as detecting data leakage, incorrect cross-validation, and missing random seeds) grows. We present scicode-lint, whose two-tier architecture separates pattern design (frontier models at build time) from execution (small local model at runtime). Patterns are generated, not hand-coded; adapting to new library versions costs tokens, not engineering hours. On Kaggle notebooks with human-labeled ground truth, preprocessing leakage detection reaches 65% precision at 100% recall; on 38 published scientific papers applying AI/ML, precision is 62% (LLM-judged) with substantial variation across pattern categories; on a held-out paper set, precision is 54%. On controlled tests, scicode-lint achieves 97.7% accuracy across 66 patterns.

翻译：科学Python代码中的方法论错误会产生看似合理但实际错误的计算结果，而传统代码检查工具和静态分析工具无法检测此类错误。多个研究团队已构建了机器学习专用代码检查器，验证了检测可行性。但这些工具存在可持续性问题：依赖特定pylint或Python版本、封装有限、每个新模式需依赖人工工程。随着AI生成代码增加科学软件数量，对自动化方法论检查（如检测数据泄露、错误交叉验证、缺失随机种子）的需求日益增长。本文提出scicode-lint，其双层架构将模式设计（构建阶段的前沿模型）与执行（运行时的小型本地模型）分离。模式通过生成而非手工编码实现；适应新库版本仅需消耗计算资源而非工程工时。在带有人工标注真实标签的Kaggle笔记本上，预处理泄露检测在100%召回率下达到65%精度；在38篇应用AI/ML的已发表科学论文中，精度达62%（经大模型评估），不同模式类别差异显著；在保留论文集上精度为54%。在受控测试中，scicode-lint在66个模式上实现97.7%准确率。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

【新书】异常检测 Python，562页pdf

【新书】异常检测 Python，562页pdf

专知会员服务

44+阅读 · 2024年12月27日

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

专知会员服务

62+阅读 · 2022年7月16日

【干货书】面向计算科学和工程的Python导论，167页pdf

【干货书】面向计算科学和工程的Python导论，167页pdf

专知会员服务

42+阅读 · 2021年4月7日

【干货书】Python机器学习，361页pdf

【干货书】Python机器学习，361页pdf

专知会员服务

271+阅读 · 2021年2月25日

【干货书】Python数据科学分析，413页pdf

【干货书】Python数据科学分析，413页pdf

专知会员服务

93+阅读 · 2020年8月22日

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

专知会员服务

108+阅读 · 2020年6月21日

【干货书】用Python进行深思熟虑的机器学习, 216页pdf，Thoughtful ML with Python

【干货书】用Python进行深思熟虑的机器学习, 216页pdf，Thoughtful ML with Python

专知会员服务

70+阅读 · 2020年4月4日

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras；Beginning Anomaly Detection Using Python-Based Deep Learning

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras；Beginning Anomaly Detection Using Python-Based Deep Learning

专知会员服务

143+阅读 · 2020年1月13日

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

专知会员服务

145+阅读 · 2019年12月1日

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

专知会员服务

78+阅读 · 2019年11月15日

【干货书】Python机器学习导论，340页pdf数据科学家指南

【干货书】Python机器学习导论，340页pdf数据科学家指南

专知

99+阅读 · 2020年6月4日

【干货书】用Python进行深思熟虑的机器学习, 216页pdf，Thoughtful ML with Python

【干货书】用Python进行深思熟虑的机器学习, 216页pdf，Thoughtful ML with Python

专知

44+阅读 · 2020年4月4日

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

专知

22+阅读 · 2020年1月16日

GitHub趋势榜首：李航《统计学习方法》Python代码实现

GitHub趋势榜首：李航《统计学习方法》Python代码实现

新智元

66+阅读 · 2019年11月13日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

资源 | 李航老师《统计学习方法》的Python 3.6复现，实测可用

资源 | 李航老师《统计学习方法》的Python 3.6复现，实测可用

专知

40+阅读 · 2018年12月17日

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

AI研习社

10+阅读 · 2018年4月5日

动手写机器学习算法：异常检测 Anomaly Detection

动手写机器学习算法：异常检测 Anomaly Detection

七月在线实验室

11+阅读 · 2017年12月8日

资源 | 想用Python学机器学习？Google大神替你写好了所有的编程示范代码

资源 | 想用Python学机器学习？Google大神替你写好了所有的编程示范代码

AI100

13+阅读 · 2017年11月28日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于临床代谢组学推断代谢功能异常的生物信息学方法

国家自然科学基金

1+阅读 · 2016年12月31日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

Towards LLM Accelerated Rapid Reviews for Software Tool Discovery -- Case for Log Anomaly Detection

Arxiv

0+阅读 · 6月15日

FasterPy: An LLM-based Code Execution Efficiency Optimization Framework

Arxiv

0+阅读 · 6月15日

Towards Functional Correctness of Large Code Models with Selective Generation

Arxiv

0+阅读 · 6月15日

SciR: A Controllable Benchmark for Scientific Reasoning in LLMs

Arxiv

0+阅读 · 6月11日

PyFEX: Uncovering Evasive Python-based Threats via Resilient and Exhaustive Path Exploration

Arxiv

0+阅读 · 6月1日

Comparing ML-Specific and General Python Code Smells Across Project Characteristics

Arxiv

0+阅读 · 6月1日

scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns

Arxiv

0+阅读 · 6月1日

Cross-Ecosystem Vulnerability Analysis for Python Applications

Arxiv

0+阅读 · 5月28日

sciwrite-lint: Verification Infrastructure for the Age of Science Vibe-Writing

Arxiv

0+阅读 · 5月24日

Stdlib or Third-Party? Empirical Performance and Correctness of LLM-Assisted Zero-Dependency Python Libraries

Arxiv

0+阅读 · 5月20日

VIP会员

文章信息

相关主题

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

5+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

5+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

7+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

7+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

9+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

8+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

8+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

9+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

11+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

10+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

10+阅读 · 6月24日

相关VIP内容

【新书】异常检测 Python，562页pdf

【新书】异常检测 Python，562页pdf

专知会员服务

44+阅读 · 2024年12月27日

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

专知会员服务

62+阅读 · 2022年7月16日

【干货书】面向计算科学和工程的Python导论，167页pdf

【干货书】面向计算科学和工程的Python导论，167页pdf

专知会员服务

42+阅读 · 2021年4月7日

【干货书】Python机器学习，361页pdf

【干货书】Python机器学习，361页pdf

专知会员服务

271+阅读 · 2021年2月25日

【干货书】Python数据科学分析，413页pdf

【干货书】Python数据科学分析，413页pdf

专知会员服务

93+阅读 · 2020年8月22日

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

专知会员服务

108+阅读 · 2020年6月21日

【干货书】用Python进行深思熟虑的机器学习, 216页pdf，Thoughtful ML with Python

【干货书】用Python进行深思熟虑的机器学习, 216页pdf，Thoughtful ML with Python

专知会员服务

70+阅读 · 2020年4月4日

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras；Beginning Anomaly Detection Using Python-Based Deep Learning

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras；Beginning Anomaly Detection Using Python-Based Deep Learning

专知会员服务

143+阅读 · 2020年1月13日

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

专知会员服务

145+阅读 · 2019年12月1日

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

专知会员服务

78+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

【干货书】Python机器学习导论，340页pdf数据科学家指南

【干货书】Python机器学习导论，340页pdf数据科学家指南

专知

99+阅读 · 2020年6月4日

【干货书】用Python进行深思熟虑的机器学习, 216页pdf，Thoughtful ML with Python

【干货书】用Python进行深思熟虑的机器学习, 216页pdf，Thoughtful ML with Python

专知

44+阅读 · 2020年4月4日

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

专知

22+阅读 · 2020年1月16日

GitHub趋势榜首：李航《统计学习方法》Python代码实现

GitHub趋势榜首：李航《统计学习方法》Python代码实现

新智元

66+阅读 · 2019年11月13日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

资源 | 李航老师《统计学习方法》的Python 3.6复现，实测可用

资源 | 李航老师《统计学习方法》的Python 3.6复现，实测可用

专知

40+阅读 · 2018年12月17日

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

AI研习社

10+阅读 · 2018年4月5日

动手写机器学习算法：异常检测 Anomaly Detection

动手写机器学习算法：异常检测 Anomaly Detection

七月在线实验室

11+阅读 · 2017年12月8日

资源 | 想用Python学机器学习？Google大神替你写好了所有的编程示范代码

资源 | 想用Python学机器学习？Google大神替你写好了所有的编程示范代码

AI100

13+阅读 · 2017年11月28日

相关论文

Towards LLM Accelerated Rapid Reviews for Software Tool Discovery -- Case for Log Anomaly Detection

Arxiv

0+阅读 · 6月15日

FasterPy: An LLM-based Code Execution Efficiency Optimization Framework

Arxiv

0+阅读 · 6月15日

Towards Functional Correctness of Large Code Models with Selective Generation

Arxiv

0+阅读 · 6月15日

SciR: A Controllable Benchmark for Scientific Reasoning in LLMs

Arxiv

0+阅读 · 6月11日

PyFEX: Uncovering Evasive Python-based Threats via Resilient and Exhaustive Path Exploration

Arxiv

0+阅读 · 6月1日

Comparing ML-Specific and General Python Code Smells Across Project Characteristics

Arxiv

0+阅读 · 6月1日

scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns

Arxiv

0+阅读 · 6月1日

Cross-Ecosystem Vulnerability Analysis for Python Applications

Arxiv

0+阅读 · 5月28日

sciwrite-lint: Verification Infrastructure for the Age of Science Vibe-Writing

Arxiv

0+阅读 · 5月24日

Stdlib or Third-Party? Empirical Performance and Correctness of LLM-Assisted Zero-Dependency Python Libraries

Arxiv

0+阅读 · 5月20日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于临床代谢组学推断代谢功能异常的生物信息学方法

国家自然科学基金

1+阅读 · 2016年12月31日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员