Semantic segmentation is a fundamental component of visual perception in modern automotive systems, enabling pixel-level scene understanding. Near-Infrared imaging (NIR) offers stable detection under difficult illumination conditions, but the development of domain-specific semantic segmentation models remains challenging due to the lack of high-quality annotated data from real-world scenarios. Synthetic datasets offer a scalable alternative, but models trained on synthetic images often suffer performance degradation when transferred to real domains. We present the first systematic study on synthetic to real domain adaptation for semantic segmentation in NIR images in the automotive domain. We propose a generative augmentation framework that transforms synthetic images into realistic NIR-style variants via our introduced target style adaptation (TSA). TSA fine-tunes a latent diffusion model via low-rank adaptation on a small curated set of real NIR images and applies it to synthetic training data using structure-preserving multi-signal conditioning. To reduce texture bias and improve segmentation robustness, we further apply a Voronoi-based style diversification strategy (VSD) that modifies the original textures while preserving scene geometry. Experiments with multiple model architectures on NIR data from vehicle interiors and street scenes show that balancing inductive bias during training leads to noticeably more robust semantic segmentation and effectively reduces the domain gap in our real-world scenarios by up to 63.6% on exterior and 28.4% on interior data. The code is available at GitHub.


翻译:语义分割是现代汽车系统中视觉感知的基础组件,可实现像素级场景理解。近红外成像(NIR)能够在光照条件不佳的情况下提供稳定的检测能力,但由于缺乏高质量的真实场景标注数据,开发特定领域的语义分割模型仍具挑战性。合成数据集提供了可扩展的替代方案,但基于合成图像训练的模型在迁移至真实域时往往性能下降。我们首次针对汽车领域近红外图像中合成到真实域的语义分割自适应问题开展了系统性研究。提出一种生成式增强框架,通过引入目标风格自适应(TSA)机制将合成图像转换为逼真的近红外风格变体。TSA采用低秩自适应方法,在少量精选真实近红外图像上对潜扩散模型进行微调,并利用保持结构的多信号条件化方法将其应用于合成训练数据。为降低纹理偏差并提升分割鲁棒性,我们进一步提出基于沃罗诺伊图的风格多样化策略(VSD),在保持场景几何结构的同时修改原始纹理。在车辆内部和街景场景的近红外数据上采用多种模型架构进行的实验表明,训练过程中平衡归纳偏差可显著提升语义分割的鲁棒性,并在实际场景中将域差距有效降低:外部场景降低63.6%,内部场景降低28.4%。代码已在GitHub开源。

0
下载
关闭预览

相关内容

视觉-语言模型在物体检测与分割中的应用:综述与评估
专知会员服务
25+阅读 · 2025年4月28日
基于深度学习的实时语义分割综述
专知会员服务
32+阅读 · 2023年11月27日
CVPR 2022 | 用于语义分割任务的跨图像关系型知识蒸馏
专知会员服务
23+阅读 · 2022年5月15日
专知会员服务
87+阅读 · 2021年1月7日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员