Getting Python Types Right with RightTyper - 专知论文

会员服务 ·

0

标注 · 推断 · Python · 代码 · 动态特性 ·

Getting Python Types Right with RightTyper

翻译：基于RightTyper实现Python类型正确标注

Juan Altmayer Pizzorno,Emery D. Berger

Python type annotations enable static type checking, but most code remains untyped because manual annotation is time-consuming and tedious. Past approaches to automatic type inference fall short: static methods struggle with dynamic features and infer overly broad types; AI-based methods are unsound and miss rare types; and dynamic methods impose extreme overheads (up to 270x), lack important language support such as inferring variable types, or produce annotations that cause runtime errors. This paper presents RightTyper, a novel hybrid approach for Python that produces accurate and precise type annotations grounded in actual program behavior. RightTyper grounds inference in types observed during actual program execution and combines these observations with static analysis and name resolution to produce substantially higher-quality type annotations than prior approaches. Through principled, statistically guided adaptive sampling, RightTyper balances runtime overhead with the need to observe sufficient execution behavior to infer high-quality type annotations. We evaluate RightTyper against static, dynamic, and AI-based systems on both synthetic benchmarks and real-world code, and find that it consistently achieves higher semantic similarity to ground-truth and developer-written annotations, respectively, while incurring only approximately 25% runtime overhead.

翻译：Python的类型注解支持静态类型检查，但大多数代码仍处于无类型状态，因为手动标注耗时且繁琐。以往的自动类型推断方法存在不足：静态方法难以处理动态特性且推断出的类型过于宽泛；基于人工智能的方法缺乏可靠性且会遗漏罕见类型；动态方法则带来极高的运行时开销（高达270倍），缺乏对推断变量类型等重要语言特性的支持，或产生的注解会导致运行时错误。本文提出了RightTyper，一种适用于Python的新型混合方法，能够基于程序的实际行为生成准确且精确的类型注解。RightTyper将推断过程建立在程序实际执行过程中观察到的类型之上，并将这些观察结果与静态分析及名称解析相结合，从而生成比先前方法质量显著更高的类型注解。通过采用基于统计原理的自适应采样策略，RightTyper在运行时开销与观察足够执行行为以推断高质量类型注解的需求之间取得了平衡。我们在合成基准测试和实际代码上，将RightTyper与静态、动态以及基于人工智能的系统进行了评估，发现其生成的注解在语义上分别与真实标注和开发者手写标注具有更高的一致性，同时仅产生约25%的运行时开销。

0

相关内容

掌握使用Python的大型语言模型

掌握使用Python的大型语言模型

专知会员服务

63+阅读 · 2024年5月22日

【2023新书】Python数据科学手册:使用数据的基本工具，591页pdf

【2023新书】Python数据科学手册:使用数据的基本工具，591页pdf

专知会员服务

111+阅读 · 2023年2月28日

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

专知会员服务

62+阅读 · 2022年7月16日

【新书介绍】《Python人工智能》Artificial Intelligence with Python

【新书介绍】《Python人工智能》Artificial Intelligence with Python

专知会员服务

31+阅读 · 2022年3月25日

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

专知会员服务

31+阅读 · 2022年3月12日

【2022新书】TypeScript编程，使你的JavaScript应用程序规模化，324页pdf

【2022新书】TypeScript编程，使你的JavaScript应用程序规模化，324页pdf

专知会员服务

77+阅读 · 2022年2月5日

【2020新书】如何写出简洁Python代码，321页pdf

专知会员服务

94+阅读 · 2020年12月26日

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

专知会员服务

107+阅读 · 2020年6月21日

【书籍推荐】简洁的Python编程（Clean Python），附274页pdf

【书籍推荐】简洁的Python编程（Clean Python），附274页pdf

专知会员服务

184+阅读 · 2020年1月1日

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

专知会员服务

78+阅读 · 2019年11月15日

一文看懂怎么用 Python 做数据分析

一文看懂怎么用 Python 做数据分析

大数据技术

24+阅读 · 2019年5月5日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

推荐：使用Python实现机器学习特征选择的4种方法（附代码）

推荐：使用Python实现机器学习特征选择的4种方法（附代码）

数据分析

12+阅读 · 2019年4月14日

独家 | 使用Python实现机器学习特征选择的4种方法（附代码）

独家 | 使用Python实现机器学习特征选择的4种方法（附代码）

数据派THU

12+阅读 · 2019年4月12日

Python用法速查网站

Python用法速查网站

Python程序员

17+阅读 · 2018年12月16日

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

专知

13+阅读 · 2018年6月18日

【干货】Python无监督学习的4大聚类算法

【干货】Python无监督学习的4大聚类算法

新智元

14+阅读 · 2018年5月26日

在Python中使用SpaCy进行文本分类

在Python中使用SpaCy进行文本分类

专知

24+阅读 · 2018年5月8日

Tensorflow 文本分类-Python深度学习

Tensorflow 文本分类-Python深度学习

Python程序员

12+阅读 · 2017年11月22日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

基于分类能力结构度量与类相关性关系保留的特征选取方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向二进制程序的静态结构化符号执行与动态组合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

Getting Python Types Right with RightTyper

Arxiv

0+阅读 · 3月10日

Efficient Selection of Type Annotations for Performance Improvement in Gradual Typing

Arxiv

0+阅读 · 3月5日

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

Arxiv

0+阅读 · 2月27日

PyTrim: A Practical Tool for Reducing Python Dependency Bloat

Arxiv

0+阅读 · 2月20日

Mining Type Constructs Using Patterns in AI-Generated Code

Arxiv

0+阅读 · 2月20日

LogitsCoder: Towards Efficient Chain-of-Thought Path Search via Logits Preference Decoding for Code Generation

Arxiv

0+阅读 · 2月15日

Learning to Guarantee Type Correctness in Code Generation through Type-Guided Program Synthesis

Arxiv

0+阅读 · 2月6日

Do Developers Read Type Information? An Eye-Tracking Study on TypeScript

Arxiv

0+阅读 · 2月4日

StraTyper: Automated Semantic Type Discovery and Multi-Type Annotation for Dataset Collections

Arxiv

0+阅读 · 2月3日

The Opaque Pointer Design Pattern in Python: Towards a Pythonic PIMPL for Modularity, Encapsulation, and Stability

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

《通过适应复杂环境与特殊作战行动动态来变革情报周期》

《通过适应复杂环境与特殊作战行动动态来变革情报周期》

专知会员服务

1+阅读 · 今天4:15

俄乌冲突背景下军事特种公路运输日益增长的重要性

俄乌冲突背景下军事特种公路运输日益增长的重要性

专知会员服务

2+阅读 · 今天3:44

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

专知会员服务

7+阅读 · 6月10日

《基于深度强化学习的反无人机技术研究》178页

《基于深度强化学习的反无人机技术研究》178页

专知会员服务

6+阅读 · 6月10日

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

专知会员服务

4+阅读 · 6月10日

“史诗怒火”行动与“AI中心战”模式的浮现

“史诗怒火”行动与“AI中心战”模式的浮现

专知会员服务

5+阅读 · 6月10日

【CVPR2026教程】扩散模型的解析理解

【CVPR2026教程】扩散模型的解析理解

专知会员服务

2+阅读 · 6月10日

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

专知会员服务

2+阅读 · 6月10日

马赛克战：俄乌战场透析

马赛克战：俄乌战场透析

专知会员服务

15+阅读 · 6月10日

《利用人工智能增强军事决策》

《利用人工智能增强军事决策》

专知会员服务

7+阅读 · 6月10日

《自动机器学习在军事数据耕耘法中的应用》

《自动机器学习在军事数据耕耘法中的应用》

专知会员服务

9+阅读 · 6月10日

为何指挥所生存能力要求范式转变

为何指挥所生存能力要求范式转变

专知会员服务

6+阅读 · 6月10日

打造“新蛛网”模式与高科技动员

打造“新蛛网”模式与高科技动员

专知会员服务

5+阅读 · 6月10日

“蛛网”行动一周年：远程无人机战争

“蛛网”行动一周年：远程无人机战争

专知会员服务

3+阅读 · 6月10日

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

专知会员服务

4+阅读 · 6月10日

相关VIP内容

掌握使用Python的大型语言模型

掌握使用Python的大型语言模型

专知会员服务

63+阅读 · 2024年5月22日

【2023新书】Python数据科学手册:使用数据的基本工具，591页pdf

【2023新书】Python数据科学手册:使用数据的基本工具，591页pdf

专知会员服务

111+阅读 · 2023年2月28日

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理，395页pdf

专知会员服务

62+阅读 · 2022年7月16日

【新书介绍】《Python人工智能》Artificial Intelligence with Python

【新书介绍】《Python人工智能》Artificial Intelligence with Python

专知会员服务

31+阅读 · 2022年3月25日

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

专知会员服务

31+阅读 · 2022年3月12日

【2022新书】TypeScript编程，使你的JavaScript应用程序规模化，324页pdf

【2022新书】TypeScript编程，使你的JavaScript应用程序规模化，324页pdf

专知会员服务

77+阅读 · 2022年2月5日

【2020新书】如何写出简洁Python代码，321页pdf

专知会员服务

94+阅读 · 2020年12月26日

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

专知会员服务

107+阅读 · 2020年6月21日

【书籍推荐】简洁的Python编程（Clean Python），附274页pdf

【书籍推荐】简洁的Python编程（Clean Python），附274页pdf

专知会员服务

184+阅读 · 2020年1月1日

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

【电子书推荐|Google】《Effective Python：编写高质量Python代码的90个有效方法(第二版)》随书代码，Google首席工程师Brett Slatkin

专知会员服务

78+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌冲突背景下军事特种公路运输日益增长的重要性

《基于深度强化学习的反无人机技术研究》178页

《通过适应复杂环境与特殊作战行动动态来变革情报周期》

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

相关资讯

一文看懂怎么用 Python 做数据分析

一文看懂怎么用 Python 做数据分析

大数据技术

24+阅读 · 2019年5月5日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

推荐：使用Python实现机器学习特征选择的4种方法（附代码）

推荐：使用Python实现机器学习特征选择的4种方法（附代码）

数据分析

12+阅读 · 2019年4月14日

独家 | 使用Python实现机器学习特征选择的4种方法（附代码）

独家 | 使用Python实现机器学习特征选择的4种方法（附代码）

数据派THU

12+阅读 · 2019年4月12日

Python用法速查网站

Python用法速查网站

Python程序员

17+阅读 · 2018年12月16日

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

专知

13+阅读 · 2018年6月18日

【干货】Python无监督学习的4大聚类算法

【干货】Python无监督学习的4大聚类算法

新智元

14+阅读 · 2018年5月26日

在Python中使用SpaCy进行文本分类

在Python中使用SpaCy进行文本分类

专知

24+阅读 · 2018年5月8日

Tensorflow 文本分类-Python深度学习

Tensorflow 文本分类-Python深度学习

Python程序员

12+阅读 · 2017年11月22日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Getting Python Types Right with RightTyper

Arxiv

0+阅读 · 3月10日

Efficient Selection of Type Annotations for Performance Improvement in Gradual Typing

Arxiv

0+阅读 · 3月5日

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

Arxiv

0+阅读 · 2月27日

PyTrim: A Practical Tool for Reducing Python Dependency Bloat

Arxiv

0+阅读 · 2月20日

Mining Type Constructs Using Patterns in AI-Generated Code

Arxiv

0+阅读 · 2月20日

LogitsCoder: Towards Efficient Chain-of-Thought Path Search via Logits Preference Decoding for Code Generation

Arxiv

0+阅读 · 2月15日

Learning to Guarantee Type Correctness in Code Generation through Type-Guided Program Synthesis

Arxiv

0+阅读 · 2月6日

Do Developers Read Type Information? An Eye-Tracking Study on TypeScript

Arxiv

0+阅读 · 2月4日

StraTyper: Automated Semantic Type Discovery and Multi-Type Annotation for Dataset Collections

Arxiv

0+阅读 · 2月3日

The Opaque Pointer Design Pattern in Python: Towards a Pythonic PIMPL for Modularity, Encapsulation, and Stability

Arxiv

0+阅读 · 2月3日

相关基金

基于分类能力结构度量与类相关性关系保留的特征选取方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向二进制程序的静态结构化符号执行与动态组合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员