Open science initiatives have strengthened scientific integrity and accelerated research progress across many fields, but the state of their practice within transportation research remains under-investigated. Key features of open science, defined here as data and code availability, are difficult to extract due to the inherent complexity of the field. Previous work has either been limited to small-scale studies due to the labor-intensive nature of manual analysis or has relied on large-scale bibliometric approaches that sacrifice contextual richness. This paper introduces an automatic and scalable feature-extraction pipeline to measure data and code availability in transportation research. We employ Large Language Models (LLMs) for this task and validate their performance against a manually curated dataset and through an inter-rater agreement analysis. We applied this pipeline to examine 10,724 research articles published in the Transportation Research Part series of journals between 2019 and 2024. Our analysis found that only 5% of quantitative papers shared a code repository, 4% of quantitative papers shared a data repository, and about 3% of papers shared both, with trends differing across journals, topics, and geographic regions. We found no significant difference in citation counts or review duration between papers that provided data and code and those that did not, suggesting a misalignment between open science efforts and traditional academic metrics. Consequently, encouraging these practices will likely require structural interventions from journals and funding agencies to supplement the lack of direct author incentives. The pipeline developed in this study can be readily scaled to other journals, representing a critical step toward the automated measurement and monitoring of open science practices in transportation research.


翻译:开放科学倡议已在众多领域强化了科学诚信并加速了研究进展,但其在交通研究领域的实践状况仍缺乏充分调查。开放科学的关键特征——此处定义为数据与代码的可获取性——由于该领域固有的复杂性而难以提取。先前的研究或因人工分析的高强度劳动而局限于小规模研究,或依赖于牺牲上下文丰富性的大规模文献计量方法。本文提出了一种自动且可扩展的特征提取流程,用于衡量交通研究中的数据与代码可获取性。我们采用大型语言模型(LLMs)完成此任务,并通过人工标注数据集和评分者间一致性分析验证其性能。我们将此流程应用于2019年至2024年间发表在Transportation Research Part系列期刊上的10,724篇研究论文。分析发现,仅5%的定量论文共享了代码仓库,4%的定量论文共享了数据仓库,约3%的论文同时共享了二者,且趋势因期刊、主题和地理区域而异。我们发现,提供数据与代码的论文与未提供的论文在引用次数或审稿周期上均无显著差异,这表明开放科学实践与传统学术评价指标之间存在错位。因此,鼓励这些实践可能需要期刊和资助机构采取结构性干预措施,以弥补作者直接激励的不足。本研究开发的流程可轻松扩展至其他期刊,标志着向交通研究领域开放科学实践的自动化测量与监测迈出了关键一步。

0
下载
关闭预览

相关内容

论文(Paper)是专知网站核心资料文档,包括全球顶级期刊、顶级会议论文,及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊,CCF-A、B、C三类。通过人机协作方式,汇编、挖掘后呈现于专知网站。
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
科学大语言模型综述:从数据基础到智能体前沿
专知会员服务
51+阅读 · 2025年9月1日
交通大模型综述
专知会员服务
29+阅读 · 2025年3月3日
【博士论文】解释大型视觉模型方面的进展
专知会员服务
27+阅读 · 2025年2月7日
医学大语言模型研究与应用综述
专知会员服务
67+阅读 · 2024年7月2日
《大型语言模型归因》综述
专知会员服务
75+阅读 · 2023年11月8日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
【综述】交通流量预测,附15页论文下载
专知
23+阅读 · 2020年4月23日
交通评价指标概略
智能交通技术
15+阅读 · 2019年7月21日
车路协同构建“通信+计算”新体系
智能交通技术
11+阅读 · 2019年3月26日
智能交通大数据最新论文综述-附PDF下载
专知
22+阅读 · 2019年1月21日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员