This study investigates the predictive capacity of environmental, temporal, and spatial factors on traffic accident severity in the United States. Using a dataset of 500,000 U.S. traffic accidents spanning 2016-2023, we trained an XGBoost classifier optimized through randomized search cross-validation and adjusted for class imbalance via class weighting. The final model achieves an overall accuracy of 78%, with strong performance on the majority class (Severity 2), attaining 87% precision and recall. Feature importance analysis reveals that time of day, geographic location, and weather-related variables, including visibility, temperature, and wind speed, rank among the strongest predictors of accident severity. However, contrary to initial hypotheses, precipitation and visibility demonstrate limited predictive power, potentially reflecting behavioral adaptation by drivers under overtly hazardous conditions. The dataset's predominance of mid-level severity accidents constrains the model's capacity to learn meaningful patterns for extreme cases, highlighting the need for alternative sampling strategies, enhanced feature engineering, and integration of external datasets. These findings contribute to evidence-based traffic management and suggest future directions for severity prediction research.


翻译:本研究探讨了环境、时间和空间因素对美国交通事故严重程度的预测能力。利用2016年至2023年间涵盖50万起美国交通事故的数据集,我们训练了一个XGBoost分类器,该模型通过随机搜索交叉验证进行优化,并通过类别加权调整了类别不平衡问题。最终模型的整体准确率达到78%,在多数类别(严重程度2级)上表现强劲,精确率和召回率均达到87%。特征重要性分析表明,一天中的时间、地理位置以及与天气相关的变量(包括能见度、温度和风速)是事故严重程度的最强预测因子之一。然而,与初始假设相反,降水和能见度的预测能力有限,这可能反映了驾驶员在明显危险条件下的行为适应。数据集中以中等严重程度事故为主,限制了模型学习极端案例有意义模式的能力,突显了采用替代抽样策略、增强特征工程以及整合外部数据集的必要性。这些发现为基于证据的交通管理提供了依据,并为严重程度预测研究指明了未来方向。

0
下载
关闭预览

相关内容

自动驾驶中的轨迹预测大型基础模型:全面综述
专知会员服务
16+阅读 · 2025年9月18日
基于机器学习的交通流预测方法综述
专知会员服务
35+阅读 · 2023年8月17日
【清华大学】图神经网络交通流预测综述论文,19页pdf
专知会员服务
50+阅读 · 2021年1月29日
【AAAI2021】Graph Diffusion Network提升交通流量预测精度
专知会员服务
54+阅读 · 2021年1月21日
【综述】交通流量预测,附15页论文下载
专知会员服务
132+阅读 · 2020年4月23日
【综述】交通流量预测,附15页论文下载
专知
23+阅读 · 2020年4月23日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
智能交通大数据最新论文综述-附PDF下载
专知
22+阅读 · 2019年1月21日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
使用随机森林分类器预测森林火灾规模
论智
13+阅读 · 2018年5月15日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
【综述】交通流量预测,附15页论文下载
专知
23+阅读 · 2020年4月23日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
智能交通大数据最新论文综述-附PDF下载
专知
22+阅读 · 2019年1月21日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
使用随机森林分类器预测森林火灾规模
论智
13+阅读 · 2018年5月15日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员