Natural disasters are increasing in frequency and severity, causing hundreds of billions of dollars in damage annually and posing growing threats to infrastructure and human livelihoods. Accurate data on roofing materials is critical for modeling building vulnerability to natural hazards such as earthquakes, floods, wildfires, and hurricanes, yet such data remain unavailable. To address this gap, we introduce RoofNet, the largest and most geographically diverse novel multimodal dataset to date, comprising over 51,500 samples from 184 geographically diverse sites pairing high-resolution Earth Observation (EO) imagery with curated text annotations for global roof material classification. RoofNet includes geographically diverse satellite imagery labeled with 14 key roofing types and is designed to enhance the fidelity of global exposure datasets through vision-language modeling (VLM). We sample EO tiles from climatically and architecturally distinct regions to construct a representative dataset. A subset of 6,000 images was annotated in collaboration with domain experts to fine-tune a VLM. We used geographic- and material-aware prompt tuning to enhance class separability. The fine-tuned model was then applied to the remaining EO tiles, with predictions refined through rule-based and human-in-the-loop verification. In addition to material labels, RoofNet provides rich metadata including roof shape, footprint area, solar panel presence, and indicators of mixed roofing materials (e.g., HVAC systems). The dataset used in earlier experiments has been removed due to licensing constraints related to imagery sources. Results based on this dataset should be interpreted with caution. Updated experiments using compliant data are in progress.


翻译:自然灾害的频率和严重程度持续增加,每年造成数千亿美元损失,对基础设施和人类生计构成日益严峻的威胁。精确的屋顶材料数据对于模拟建筑在地震、洪水、野火和飓风等自然灾害中的脆弱性至关重要,然而此类数据目前仍不可得。为弥补这一空白,我们提出了RoofNet——迄今为止规模最大、地理多样性最丰富的新型多模态数据集,包含来自184个地理分布广泛区域的51,500余个样本,将高分辨率地球观测(EO)影像与经过整理的文本注释相结合,用于全球屋顶材料分类。RoofNet包含标注有14种关键屋顶类型的地理多样化卫星影像,旨在通过视觉语言建模(VLM)提升全球暴露数据的保真度。我们从气候和建筑特征各异的区域采样EO图块,构建具有代表性的数据集。其中6,000幅图像与领域专家合作进行注释,用于微调VLM。我们采用地理和材料感知的提示调优方法以增强类别可分性。随后将微调模型应用于其余EO图块,并通过基于规则和人在回路的验证对预测结果进行优化。除材料标签外,RoofNet还提供丰富的元数据,包括屋顶形状、占地面积、太阳能电池板存在情况以及混合屋顶材料(如暖通空调系统)的标识。早期实验中使用的数据集因影像来源的许可限制已被移除。基于该数据集的实验结果应谨慎解读。使用合规数据进行的更新实验正在进行中。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《网络拦截--博弈论方法》美国MITRE公司
专知会员服务
34+阅读 · 2022年8月19日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
CNN五大经典模型:LeNet,AlexNet,GoogleNet,VGG,DRL
黑龙江大学自然语言处理实验室
14+阅读 · 2018年9月7日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
《网络拦截--博弈论方法》美国MITRE公司
专知会员服务
34+阅读 · 2022年8月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员