The construction industry increasingly relies on visual data to support Artificial Intelligence (AI) and Machine Learning (ML) applications for site monitoring. High-quality, domain-specific datasets, comprising images, videos, and point clouds, capture site geometry and spatiotemporal dynamics, including the location and interaction of objects, workers, and materials. However, despite growing interest in leveraging visual datasets, existing resources vary widely in sizes, data modalities, annotation quality, and representativeness of real-world construction conditions. A systematic review to categorize their data characteristics and application contexts is still lacking, limiting the community's ability to fully understand the dataset landscape, identify critical gaps, and guide future directions toward more effective, reliable, and scalable AI applications in construction. To address this gap, this study conducts an extensive search of academic databases and open-data platforms, yielding 51 publicly available visual datasets that span the 2005-2024 period. These datasets are categorized using a structured data schema covering (i) data fundamentals (e.g., size and license), (ii) data modalities (e.g., RGB and point cloud), (iii) annotation frameworks (e.g., bounding boxes), and (iv) downstream application domains (e.g., progress tracking). This study synthesizes these findings into an open-source catalog, OpenConstruction, supporting data-driven method development. Furthermore, the study discusses several critical limitations in the existing construction dataset landscape and presents a roadmap for future data infrastructure anchored in the Findability, Accessibility, Interoperability, and Reusability (FAIR) principles. By reviewing the current landscape and outlining strategic priorities, this study supports the advancement of data-centric solutions in the construction sector.


翻译:建筑行业日益依赖视觉数据来支持人工智能与机器学习在工地监控中的应用。由图像、视频和点云构成的高质量领域特定数据集,能够捕捉工地几何形态与时空动态,包括物体、工人和材料的位置与交互关系。然而,尽管利用视觉数据集的兴趣日益增长,现有资源在数据规模、模态类型、标注质量及对真实施工条件的代表性方面存在显著差异。目前仍缺乏对其数据特征与应用场景进行系统分类的综述研究,这限制了学界全面理解数据集格局、识别关键缺口以及引导未来方向以开发更有效、可靠且可扩展的建筑领域人工智能应用的能力。为填补这一空白,本研究通过对学术数据库和开放数据平台进行广泛检索,收集了2005年至2024年间公开的51个视觉数据集。采用结构化数据框架对这些数据集进行分类,涵盖:(i)数据基础信息(如规模与许可协议),(ii)数据模态(如RGB图像与点云),(iii)标注框架(如边界框),以及(iv)下游应用领域(如进度追踪)。本研究将分析结果整合为开源目录OpenConstruction,以支持数据驱动方法的开发。此外,研究还探讨了现有建筑数据集格局中的若干关键局限性,并基于可发现性、可访问性、互操作性和可重用性原则提出了未来数据基础设施的发展路线图。通过对当前格局的综述与战略重点的规划,本研究旨在推动建筑领域以数据为中心的解决方案的发展。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员