scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns - 专知论文

会员服务 ·

0

代码 · Python · 语言模型 · 模型生成 · 模式检测 ·

scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns

翻译：scicode-lint: 基于大语言模型生成的模式检测科学Python代码中的方法论错误

Sergey V. Samsonau

Methodology bugs in scientific Python code produce plausible but incorrect results that traditional linters and static analysis tools cannot detect. Several research groups have built ML-specific linters, demonstrating that detection is feasible. Yet these tools share a sustainability problem: dependency on specific pylint or Python versions, limited packaging, and reliance on manual engineering for every new pattern. As AI-generated code increases the volume of scientific software, the need for automated methodology checking (such as detecting data leakage, incorrect cross-validation, and missing random seeds) grows. We present scicode-lint, whose two-tier architecture separates pattern design (frontier models at build time) from execution (small local model at runtime). Patterns are generated, not hand-coded; adapting to new library versions costs tokens, not engineering hours. On Kaggle notebooks with human-labeled ground truth, preprocessing leakage detection reaches 65% precision at 100% recall; on 38 published scientific papers applying AI/ML, precision is 62% (LLM-judged) with substantial variation across pattern categories; on a held-out paper set, precision is 54%. On controlled tests, scicode-lint achieves 97.7% accuracy across 66 patterns.

翻译：科学Python代码中的方法论错误会产生看似合理但实际错误的结果，传统linter和静态分析工具无法检测此类错误。多个研究团队已构建了专门针对机器学习的linter，证明此类检测具有可行性。但这些工具普遍存在可持续性问题：依赖特定pylint或Python版本、封装性有限、且每个新模式均需人工编码实现。随着AI生成代码导致科学软件规模激增，对自动化方法论检查（如检测数据泄露、错误交叉验证、缺失随机种子等）的需求日益增长。我们提出scicode-lint，其双层架构将模式设计（构建时采用前沿模型）与执行（运行时使用轻量本地模型）相分离。模式由系统自动生成而非人工编码；适配新库版本仅需消耗计算资源而非工程人力。在带人工标注的Kaggle笔记本测试中，预处理泄露检测在100%召回率下达到65%精确率；在38篇应用AI/ML的已发表科学论文中，精确率为62%（基于大语言模型评估），不同模式类别间差异显著；在留出论文集中精确率为54%。在受控测试中，scicode-lint在66个模式上实现了97.7%的准确率。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

【新书】异常检测 Python，562页pdf

【新书】异常检测 Python，562页pdf

专知会员服务

44+阅读 · 2024年12月27日

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

专知会员服务

62+阅读 · 2022年7月16日

【2020新书】如何写出简洁Python代码，321页pdf

专知会员服务

94+阅读 · 2020年12月26日

【干货书】Python数据科学分析，413页pdf

【干货书】Python数据科学分析，413页pdf

专知会员服务

93+阅读 · 2020年8月22日

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

专知会员服务

107+阅读 · 2020年6月21日

【Manning干货书】数据科学导论，322页pdf教你使用Python进行大数据、机器学习等等

【Manning干货书】数据科学导论，322页pdf教你使用Python进行大数据、机器学习等等

专知会员服务

74+阅读 · 2020年5月20日

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras；Beginning Anomaly Detection Using Python-Based Deep Learning

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras；Beginning Anomaly Detection Using Python-Based Deep Learning

专知会员服务

143+阅读 · 2020年1月13日

新书《给数据科学家的Python技能秘籍》，87页pdf，简单上手实用！

新书《给数据科学家的Python技能秘籍》，87页pdf，简单上手实用！

专知会员服务

110+阅读 · 2019年12月26日

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

专知会员服务

145+阅读 · 2019年12月1日

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

专知会员服务

78+阅读 · 2019年11月15日

【干货书】用Python进行深思熟虑的机器学习, 216页pdf，Thoughtful ML with Python

【干货书】用Python进行深思熟虑的机器学习, 216页pdf，Thoughtful ML with Python

专知

44+阅读 · 2020年4月4日

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

专知

22+阅读 · 2020年1月16日

GitHub趋势榜首：李航《统计学习方法》Python代码实现

GitHub趋势榜首：李航《统计学习方法》Python代码实现

新智元

66+阅读 · 2019年11月13日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

资源 | 李航老师《统计学习方法》的Python 3.6复现，实测可用

资源 | 李航老师《统计学习方法》的Python 3.6复现，实测可用

专知

40+阅读 · 2018年12月17日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

AI研习社

10+阅读 · 2018年4月5日

动手写机器学习算法：异常检测 Anomaly Detection

动手写机器学习算法：异常检测 Anomaly Detection

七月在线实验室

11+阅读 · 2017年12月8日

资源 | 想用Python学机器学习？Google大神替你写好了所有的编程示范代码

资源 | 想用Python学机器学习？Google大神替你写好了所有的编程示范代码

AI100

13+阅读 · 2017年11月28日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

Towards Functional Correctness of Large Code Models with Selective Generation

Arxiv

0+阅读 · 6月15日

SciR: A Controllable Benchmark for Scientific Reasoning in LLMs

Arxiv

0+阅读 · 6月11日

LLM vs. Human Unit Tests: Fault Detection on Real Python Bugs

Arxiv

0+阅读 · 6月7日

QBugLM: An Agentic Benchmarking Framework for LLM-based Quantum Software Debugging

Arxiv

0+阅读 · 6月5日

PyFEX: Uncovering Evasive Python-based Threats via Resilient and Exhaustive Path Exploration

Arxiv

0+阅读 · 6月1日

Comparing ML-Specific and General Python Code Smells Across Project Characteristics

Arxiv

0+阅读 · 6月1日

Cross-Ecosystem Vulnerability Analysis for Python Applications

Arxiv

0+阅读 · 5月28日

sciwrite-lint: Verification Infrastructure for the Age of Science Vibe-Writing

Arxiv

0+阅读 · 5月24日

Stdlib or Third-Party? Empirical Performance and Correctness of LLM-Assisted Zero-Dependency Python Libraries

Arxiv

0+阅读 · 5月20日

Hydra: Efficient, Correct Code Generation via Checkpoint-and-Rollback Support

Arxiv

0+阅读 · 5月14日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

2+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

4+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【新书】异常检测 Python，562页pdf

【新书】异常检测 Python，562页pdf

专知会员服务

44+阅读 · 2024年12月27日

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

专知会员服务

62+阅读 · 2022年7月16日

【2020新书】如何写出简洁Python代码，321页pdf

专知会员服务

94+阅读 · 2020年12月26日

【干货书】Python数据科学分析，413页pdf

【干货书】Python数据科学分析，413页pdf

专知会员服务

93+阅读 · 2020年8月22日

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

专知会员服务

107+阅读 · 2020年6月21日

【Manning干货书】数据科学导论，322页pdf教你使用Python进行大数据、机器学习等等

【Manning干货书】数据科学导论，322页pdf教你使用Python进行大数据、机器学习等等

专知会员服务

74+阅读 · 2020年5月20日

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras；Beginning Anomaly Detection Using Python-Based Deep Learning

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras；Beginning Anomaly Detection Using Python-Based Deep Learning

专知会员服务

143+阅读 · 2020年1月13日

新书《给数据科学家的Python技能秘籍》，87页pdf，简单上手实用！

新书《给数据科学家的Python技能秘籍》，87页pdf，简单上手实用！

专知会员服务

110+阅读 · 2019年12月26日

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

专知会员服务

145+阅读 · 2019年12月1日

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

专知会员服务

78+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

【干货书】用Python进行深思熟虑的机器学习, 216页pdf，Thoughtful ML with Python

【干货书】用Python进行深思熟虑的机器学习, 216页pdf，Thoughtful ML with Python

专知

44+阅读 · 2020年4月4日

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

专知

22+阅读 · 2020年1月16日

GitHub趋势榜首：李航《统计学习方法》Python代码实现

GitHub趋势榜首：李航《统计学习方法》Python代码实现

新智元

66+阅读 · 2019年11月13日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

资源 | 李航老师《统计学习方法》的Python 3.6复现，实测可用

资源 | 李航老师《统计学习方法》的Python 3.6复现，实测可用

专知

40+阅读 · 2018年12月17日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

Github 项目推荐 | Scikit-learn（sklearn）官方文档中文版

AI研习社

10+阅读 · 2018年4月5日

动手写机器学习算法：异常检测 Anomaly Detection

动手写机器学习算法：异常检测 Anomaly Detection

七月在线实验室

11+阅读 · 2017年12月8日

资源 | 想用Python学机器学习？Google大神替你写好了所有的编程示范代码

资源 | 想用Python学机器学习？Google大神替你写好了所有的编程示范代码

AI100

13+阅读 · 2017年11月28日

相关论文

Towards Functional Correctness of Large Code Models with Selective Generation

Arxiv

0+阅读 · 6月15日

SciR: A Controllable Benchmark for Scientific Reasoning in LLMs

Arxiv

0+阅读 · 6月11日

LLM vs. Human Unit Tests: Fault Detection on Real Python Bugs

Arxiv

0+阅读 · 6月7日

QBugLM: An Agentic Benchmarking Framework for LLM-based Quantum Software Debugging

Arxiv

0+阅读 · 6月5日

PyFEX: Uncovering Evasive Python-based Threats via Resilient and Exhaustive Path Exploration

Arxiv

0+阅读 · 6月1日

Comparing ML-Specific and General Python Code Smells Across Project Characteristics

Arxiv

0+阅读 · 6月1日

Cross-Ecosystem Vulnerability Analysis for Python Applications

Arxiv

0+阅读 · 5月28日

sciwrite-lint: Verification Infrastructure for the Age of Science Vibe-Writing

Arxiv

0+阅读 · 5月24日

Stdlib or Third-Party? Empirical Performance and Correctness of LLM-Assisted Zero-Dependency Python Libraries

Arxiv

0+阅读 · 5月20日

Hydra: Efficient, Correct Code Generation via Checkpoint-and-Rollback Support

Arxiv

0+阅读 · 5月14日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员