Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages - 专知论文

会员服务 ·

0

代码 · 识别 · GitHub · 结构 · 基准 ·

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

翻译：GitHub 中浮点数的使用：静态类型语言的大规模研究

Andrea Gilot,Tobias Wrigstad,Eva Darulova

Reasoning about floating-point arithmetic is notoriously hard. While static and dynamic analysis techniques or program repair have made significant progress, more work is still needed to make them relevant to real-world code. On the critical path to that goal is understanding what real-world floating-point code looks like. To close that knowledge gap, this paper presents the first large-scale empirical study of floating-point arithmetic usage across public GitHub repositories. We focus on statically typed languages to allow our study to scale to millions of repositories. We follow state-of the art mining practices including random sampling and filtering based on only intrinsic properties to avoid bias, and identify floating-point usage by searching for keywords in the source code, and programming language constructs (e.g., loops) by parsing the code. Our evaluation supports the claim often made in papers that floating-point arithmetic is widely used. Comparing statistics such as size and usage of certain constructs and functions, we find that benchmarks used in literature to evaluate automated reasoning techniques for floating-point arithmetic are in certain aspects representative of 'real-world' code, but not in all. We publish a dataset of 10 million real-world floating-point functions extracted from our study. We demonstrate in a case study how it may be used to identify new floating-point benchmarks and help future techniques for floating-point arithmetic to be designed and evaluated to match actual users' expectations.

翻译：浮点运算的推理众所周知是困难的。尽管静态与动态分析技术或程序修复已取得显著进展，但要使这些技术适用于实际代码仍需要更多工作。实现该目标的关键路径在于理解真实世界中的浮点代码究竟是什么样的。为填补这一知识空白，本文首次对公开 GitHub 仓库中的浮点运算使用情况进行了大规模实证研究。我们聚焦于静态类型语言，以使研究能够扩展到数百万个仓库。我们遵循最先进的挖掘实践，包括随机抽样和仅基于内在属性的过滤以避免偏差，并通过在源代码中搜索关键词来识别浮点数的使用，同时通过解析代码来识别编程语言结构（例如循环）。我们的评估支持了论文中经常提出的主张，即浮点运算被广泛使用。通过比较代码规模、特定结构和函数的使用情况等统计数据，我们发现文献中用于评估浮点运算自动推理技术的基准测试在某些方面能代表“真实世界”代码，但并非在所有方面都能代表。我们发布了从研究中提取的 1000 万个真实世界浮点函数的数据集。我们通过一个案例研究展示了如何利用该数据集识别新的浮点基准测试，并帮助未来的浮点运算技术得以设计和评估，以符合实际用户的期望。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

专知会员服务

19+阅读 · 2025年3月14日

【牛津大学博士论文】学习理解大规模3D点云，191页pdf

【牛津大学博士论文】学习理解大规模3D点云，191页pdf

专知会员服务

38+阅读 · 2023年6月22日

【2022新书】TypeScript编程，使你的JavaScript应用程序规模化，324页pdf

【2022新书】TypeScript编程，使你的JavaScript应用程序规模化，324页pdf

专知会员服务

77+阅读 · 2022年2月5日

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知会员服务

71+阅读 · 2021年3月7日

【UIUC】最新《深度学习3D点云理解》综述论文，20页pdf

专知会员服务

30+阅读 · 2020年9月21日

【经典书】算法C语言实现，Algorithms in C. 672页pdf

【经典书】算法C语言实现，Algorithms in C. 672页pdf

专知会员服务

82+阅读 · 2020年8月13日

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

专知会员服务

21+阅读 · 2020年3月28日

【厦门大学】综述：深度学习3D点云分割，Review: deep learning on 3D point clouds

【厦门大学】综述：深度学习3D点云分割，Review: deep learning on 3D point clouds

专知会员服务

71+阅读 · 2020年1月22日

国防科技大学发布最新3D点云深度学习综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新3D点云深度学习综述论文，带你全面了解最新点云学习方法

专知会员服务

110+阅读 · 2019年12月31日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

【泡泡图灵智库】解释PointNet：PointNet网络内部到底学习到了什么？

【泡泡图灵智库】解释PointNet：PointNet网络内部到底学习到了什么？

泡泡机器人SLAM

13+阅读 · 2019年10月14日

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

AINLP

10+阅读 · 2019年9月12日

【泡泡点云时空】PointConv: 3D点云的深度卷积网络

【泡泡点云时空】PointConv: 3D点云的深度卷积网络

泡泡机器人SLAM

23+阅读 · 2019年6月12日

【泡泡点云时空】Potree：基于Web浏览器的大规模点云渲染

【泡泡点云时空】Potree：基于Web浏览器的大规模点云渲染

泡泡机器人SLAM

58+阅读 · 2019年6月6日

PointNet系列论文解读

PointNet系列论文解读

人工智能前沿讲习班

17+阅读 · 2019年5月3日

CVPR 2019 | PointConv：在点云上高效实现卷积操作

CVPR 2019 | PointConv：在点云上高效实现卷积操作

机器之心

10+阅读 · 2019年4月21日

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年1月20日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

新智元

12+阅读 · 2018年7月10日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

格点问题与振荡积分理论

国家自然科学基金

0+阅读 · 2015年12月31日

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

有限域上的代数曲线在纠错码构造中的几点应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向二进制程序的静态结构化符号执行与动态组合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

提高移动最小二乘近似无网格方法计算效率的技术和理论

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

激光点云数据处理中基于贝叶斯抽样一致性的模型参数稳健估计方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

几类数论函数的密码学应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

Algorithms for Models with Intractable Normalizing Functions

Arxiv

0+阅读 · 3月18日

FlashHead: Efficient Drop-In Replacement for the Classification Head in Language Model Inference

Arxiv

0+阅读 · 3月15日

Pointy - A Lightweight Transformer for Point Cloud Foundation Models

Arxiv

0+阅读 · 3月11日

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Arxiv

0+阅读 · 3月10日

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

Arxiv

0+阅读 · 3月10日

CounterPoint: Using Hardware Event Counters to Refute and Refine Microarchitectural Assumptions (Extended Version)

Arxiv

0+阅读 · 2月26日

CodeGlance: Understanding Code Reasoning Challenges in LLMs through Multi-Dimensional Feature Analysis

Arxiv

0+阅读 · 2月15日

Leveraging Large Language Models for Automated Reproduction of Networking Research Results

Arxiv

0+阅读 · 2月13日

Leveraging Large Language Models for Automated Reproduction of Networking Research Results

Arxiv

0+阅读 · 2月11日

Evaluating Code Reasoning Abilities of Large Language Models Under Real-World Settings

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

2+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

4+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

【博士论文】《用于可验证数学自动化的语言模型：交互、集成与自动形式化》

专知会员服务

19+阅读 · 2025年3月14日

【牛津大学博士论文】学习理解大规模3D点云，191页pdf

【牛津大学博士论文】学习理解大规模3D点云，191页pdf

专知会员服务

38+阅读 · 2023年6月22日

【2022新书】TypeScript编程，使你的JavaScript应用程序规模化，324页pdf

【2022新书】TypeScript编程，使你的JavaScript应用程序规模化，324页pdf

专知会员服务

77+阅读 · 2022年2月5日

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知会员服务

71+阅读 · 2021年3月7日

【UIUC】最新《深度学习3D点云理解》综述论文，20页pdf

专知会员服务

30+阅读 · 2020年9月21日

【经典书】算法C语言实现，Algorithms in C. 672页pdf

【经典书】算法C语言实现，Algorithms in C. 672页pdf

专知会员服务

82+阅读 · 2020年8月13日

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

【Mila-Google】使用元学习动态调整源代码模型，On-the-Fly Adaptation of Source Code Models using Meta-Learning

专知会员服务

21+阅读 · 2020年3月28日

【厦门大学】综述：深度学习3D点云分割，Review: deep learning on 3D point clouds

【厦门大学】综述：深度学习3D点云分割，Review: deep learning on 3D point clouds

专知会员服务

71+阅读 · 2020年1月22日

国防科技大学发布最新3D点云深度学习综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新3D点云深度学习综述论文，带你全面了解最新点云学习方法

专知会员服务

110+阅读 · 2019年12月31日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

【泡泡图灵智库】解释PointNet：PointNet网络内部到底学习到了什么？

【泡泡图灵智库】解释PointNet：PointNet网络内部到底学习到了什么？

泡泡机器人SLAM

13+阅读 · 2019年10月14日

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

AINLP

10+阅读 · 2019年9月12日

【泡泡点云时空】PointConv: 3D点云的深度卷积网络

【泡泡点云时空】PointConv: 3D点云的深度卷积网络

泡泡机器人SLAM

23+阅读 · 2019年6月12日

【泡泡点云时空】Potree：基于Web浏览器的大规模点云渲染

【泡泡点云时空】Potree：基于Web浏览器的大规模点云渲染

泡泡机器人SLAM

58+阅读 · 2019年6月6日

PointNet系列论文解读

PointNet系列论文解读

人工智能前沿讲习班

17+阅读 · 2019年5月3日

CVPR 2019 | PointConv：在点云上高效实现卷积操作

CVPR 2019 | PointConv：在点云上高效实现卷积操作

机器之心

10+阅读 · 2019年4月21日

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年1月20日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

新智元

12+阅读 · 2018年7月10日

相关论文

Algorithms for Models with Intractable Normalizing Functions

Arxiv

0+阅读 · 3月18日

FlashHead: Efficient Drop-In Replacement for the Classification Head in Language Model Inference

Arxiv

0+阅读 · 3月15日

Pointy - A Lightweight Transformer for Point Cloud Foundation Models

Arxiv

0+阅读 · 3月11日

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Arxiv

0+阅读 · 3月10日

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

Arxiv

0+阅读 · 3月10日

CounterPoint: Using Hardware Event Counters to Refute and Refine Microarchitectural Assumptions (Extended Version)

Arxiv

0+阅读 · 2月26日

CodeGlance: Understanding Code Reasoning Challenges in LLMs through Multi-Dimensional Feature Analysis

Arxiv

0+阅读 · 2月15日

Leveraging Large Language Models for Automated Reproduction of Networking Research Results

Arxiv

0+阅读 · 2月13日

Leveraging Large Language Models for Automated Reproduction of Networking Research Results

Arxiv

0+阅读 · 2月11日

Evaluating Code Reasoning Abilities of Large Language Models Under Real-World Settings

Arxiv

0+阅读 · 2月4日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

格点问题与振荡积分理论

国家自然科学基金

0+阅读 · 2015年12月31日

几类随机指数函数空间的应用

国家自然科学基金

0+阅读 · 2015年12月31日

有限域上的代数曲线在纠错码构造中的几点应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向二进制程序的静态结构化符号执行与动态组合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

提高移动最小二乘近似无网格方法计算效率的技术和理论

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

激光点云数据处理中基于贝叶斯抽样一致性的模型参数稳健估计方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

几类数论函数的密码学应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员