Statistical models in high-energy physics formally encode the relationship between observed data, physics parameters of interest, and experimental and theoretical uncertainties. Likelihood-based inference is the central tool for precision measurements, effective field theory fits, and cross-analysis combinations. Consequently, there is an increasing need for machine-readable, descriptive, and portable model representations. Existing formats such as ROOT workspaces, pyhf JSON, and CMS DataCards provide valuable capabilities but remain tied to specific software stacks and offer no universal standard for exchange, validation, or long-term preservation. We introduce HS3, the High-Energy Physics Statistics Serialization Standard, an implementation-agnostic, human-readable, and extensible serialization format for statistical models. HS3 is designed such that new statistical constructs can be incorporated through backward-compatible extensions, while inference procedures and implementation-specific execution details remain the responsibility of downstream frameworks. HS3 represents likelihoods as computational graphs composed of named distributions, functions, datasets, domains, and analysis prescriptions. It supports binned and unbinned likelihoods as well as hierarchical composite models. HS3 is convertible from and to ROOT/RooFit and is a superset of pyhf. We describe the design principles, structure, and semantics of HS3 and summarize existing implementations in C++, Python, and Julia. We also present early applications to public likelihoods on HEPData, cross-framework validation, and reproducibility efforts. HS3 provides a foundation for FAIR (Findable, Accessible, Interoperable, Reusable), long-lived statistical models at the LHC and beyond. The standard is intended to serve the broader scientific community and to evolve over time for application across a wide range of domains.


翻译:高能物理中的统计模型形式化地编码了观测数据、感兴趣的物理参数以及实验和理论不确定性之间的关系。基于似然函数的推断是精确测量、有效场论拟合和跨分析组合的核心工具。因此,对机器可读、可描述且可移植的模型表示的需求日益增长。现有格式(如ROOT工作区、pyhf JSON和CMS DataCards)提供了有价值的功能,但仍与特定软件栈绑定,且缺乏用于交换、验证或长期保存的通用标准。我们提出HS3——高能物理统计序列化标准,这是一种与实现无关、人类可读且可扩展的统计模型序列化格式。HS3的设计允许通过向后兼容的扩展来纳入新的统计结构,而推断过程与具体实现的执行细节则由下游框架负责。HS3将似然函数表示为由命名分布、函数、数据集、域和分析规则组成的计算图,支持分箱与未分箱似然以及层次化复合模型。HS3可与ROOT/RooFit互转,且是pyhf的超集。我们阐述了HS3的设计原则、结构与语义,并总结了其在C++、Python和Julia中的现有实现。我们还介绍了其在HEPData公共似然数据集、跨框架验证及可重复性研究中的早期应用。HS3为LHC及未来实验中符合FAIR原则(可查找、可访问、可互操作、可重用)的长期统计模型奠定了基础。该标准旨在服务更广泛的科学界,并将随时间演进以适用于多个领域。

0
下载
关闭预览

相关内容

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。
【博士论文】统计学习中的可靠不确定性量化,128页pdf
专知会员服务
45+阅读 · 2023年11月23日
【2023新书】数理统计基础,259页pdf
专知
61+阅读 · 2023年4月13日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
【CPS】社会物理信息系统(CPSS)及其典型应用
产业智能官
16+阅读 · 2018年9月18日
统计学常用数据类型
论智
19+阅读 · 2018年7月6日
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【博士论文】统计学习中的可靠不确定性量化,128页pdf
专知会员服务
45+阅读 · 2023年11月23日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员