A Style-Based Profiling Framework for Quantifying the Synthetic-to-Real Gap in Autonomous Driving Datasets - 专知论文

会员服务 ·

0

合成 · 数据集 · 分析 · 系统 · 自动驾驶 ·

A Style-Based Profiling Framework for Quantifying the Synthetic-to-Real Gap in Autonomous Driving Datasets

翻译：基于风格的量化自动驾驶数据集合成-真实差异的分析框架

Dingyi Yao,Xinyao Han,Ruibo Ming,Zhihang Song,Lihui Peng,Jianming Hu,Danya Yao,Yi Zhang

from arxiv, Accepted for publication at the 2026 IEEE Intelligent Vehicles Symposium (IEEE IV 2026)

Ensuring the reliability of autonomous driving perception systems requires extensive environment-based testing, yet real-world execution is often impractical. Synthetic datasets have therefore emerged as a promising alternative, offering advantages such as cost-effectiveness, bias free labeling, and controllable scenarios. However, the domain gap between synthetic and real-world datasets remains a major obstacle to model generalization. To address this challenge from a data-centric perspective, this paper introduces a profile extraction and discovery framework for characterizing the style profiles underlying both synthetic and real image datasets. We propose Style Embedding Distribution Discrepancy (SEDD) as a novel evaluation metric. Our framework combines Gram matrix-based style extraction with metric learning optimized for intra-class compactness and inter-class separation to extract style embeddings. Furthermore, we establish a benchmark using publicly available datasets. Experiments are conducted on a variety of datasets and sim-to-real methods, and the results show that our method is capable of quantifying the synthetic-to-real gap. This work provides a standardized profiling-based quality control paradigm that enables systematic diagnosis and targeted enhancement of synthetic datasets, advancing future development of data-driven autonomous driving systems.

翻译：确保自动驾驶感知系统的可靠性需要进行广泛的环境测试，然而实际执行往往不切实际。因此，合成数据集已成为一种有前景的替代方案，具有成本效益、无偏标注和可控场景等优势。然而，合成数据集与真实世界数据集之间的领域差异仍然是模型泛化的主要障碍。为了从数据中心的视角应对这一挑战，本文提出了一种用于表征合成与真实图像数据集底层风格特征的分析框架。我们提出了风格嵌入分布差异作为新的评估指标。该框架结合了基于Gram矩阵的风格提取与优化类内紧凑性和类间分离性的度量学习，以提取风格嵌入。此外，我们利用公开可用的数据集建立了基准测试。在多种数据集和仿真到真实方法上进行的实验表明，我们的方法能够量化合成与真实数据之间的差异。这项工作提供了一个标准化的基于特征分析的质量控制范式，能够系统诊断并针对性增强合成数据集，推动未来数据驱动的自动驾驶系统发展。

0

相关内容

自动驾驶中的3D目标检测研究进展

自动驾驶中的3D目标检测研究进展

专知会员服务

12+阅读 · 2025年7月20日

自动驾驶中的基础模型：场景生成与场景分析综述

自动驾驶中的基础模型：场景生成与场景分析综述

专知会员服务

28+阅读 · 2025年6月16日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

47+阅读 · 2025年1月22日

【MIT博士论文】合成数据的视觉表示学习

【MIT博士论文】合成数据的视觉表示学习

专知会员服务

27+阅读 · 2024年8月25日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

自动驾驶开源数据体系：现状与未来

自动驾驶开源数据体系：现状与未来

专知会员服务

41+阅读 · 2024年1月28日

博士论文《用于自动驾驶虚拟测试的雷达模拟验证方法》2023最新135页，斯图加特大学

博士论文《用于自动驾驶虚拟测试的雷达模拟验证方法》2023最新135页，斯图加特大学

专知会员服务

24+阅读 · 2023年3月22日

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

专知会员服务

31+阅读 · 2022年3月11日

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

专知会员服务

13+阅读 · 2019年12月18日

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

专知会员服务

33+阅读 · 2019年11月28日

【2022新书】机器学习的实用模拟与合成，428页pdf

【2022新书】机器学习的实用模拟与合成，428页pdf

专知

18+阅读 · 2022年8月10日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

无人驾驶仿真软件

无人驾驶仿真软件

智能交通技术

22+阅读 · 2019年5月9日

自动驾驶仿真软件列表

自动驾驶仿真软件列表

智能交通技术

13+阅读 · 2019年5月9日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

自动驾驶车载激光雷达技术现状分析

自动驾驶车载激光雷达技术现状分析

智能交通技术

17+阅读 · 2019年4月9日

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

中国自动化学会

15+阅读 · 2018年7月5日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

基于LiDAR数据的非栅格化道路矢量提取及融合高分影像的路网探测与优化

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

ScenicRules: An Autonomous Driving Benchmark with Multi-Objective Specifications and Abstract Scenarios

Arxiv

0+阅读 · 2月17日

Foundation Models in Autonomous Driving: A Survey on Scenario Generation and Scenario Analysis

Arxiv

0+阅读 · 2月16日

RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation

Arxiv

0+阅读 · 2月11日

Driving with DINO: Vision Foundation Features as a Unified Bridge for Sim-to-Real Generation in Autonomous Driving

Arxiv

0+阅读 · 2月9日

Realistic adversarial scenario generation via human-like pedestrian model for autonomous vehicle control parameter optimisation

Arxiv

0+阅读 · 2月4日

Multi-Objective Optimization for Synthetic-to-Real Style Transfer

Arxiv

0+阅读 · 2月3日

A Graph-based Framework for Coverage Analysis in Autonomous Driving

Arxiv

0+阅读 · 1月31日

Quantifying Fidelity: A Decisive Feature Approach to Comparing Synthetic and Real Imagery

Arxiv

0+阅读 · 1月27日

AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月21日

AnyTask: an Automated Task and Data Generation Framework for Advancing Sim-to-Real Policy Learning

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

3+阅读 · 今天14:49

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 今天14:25

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

2+阅读 · 今天13:57

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

2+阅读 · 今天13:27

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

自动驾驶中的3D目标检测研究进展

自动驾驶中的3D目标检测研究进展

专知会员服务

12+阅读 · 2025年7月20日

自动驾驶中的基础模型：场景生成与场景分析综述

自动驾驶中的基础模型：场景生成与场景分析综述

专知会员服务

28+阅读 · 2025年6月16日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

47+阅读 · 2025年1月22日

【MIT博士论文】合成数据的视觉表示学习

【MIT博士论文】合成数据的视觉表示学习

专知会员服务

27+阅读 · 2024年8月25日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

自动驾驶开源数据体系：现状与未来

自动驾驶开源数据体系：现状与未来

专知会员服务

41+阅读 · 2024年1月28日

博士论文《用于自动驾驶虚拟测试的雷达模拟验证方法》2023最新135页，斯图加特大学

博士论文《用于自动驾驶虚拟测试的雷达模拟验证方法》2023最新135页，斯图加特大学

专知会员服务

24+阅读 · 2023年3月22日

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

专知会员服务

31+阅读 · 2022年3月11日

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

专知会员服务

13+阅读 · 2019年12月18日

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

专知会员服务

33+阅读 · 2019年11月28日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

【2022新书】机器学习的实用模拟与合成，428页pdf

【2022新书】机器学习的实用模拟与合成，428页pdf

专知

18+阅读 · 2022年8月10日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

无人驾驶仿真软件

无人驾驶仿真软件

智能交通技术

22+阅读 · 2019年5月9日

自动驾驶仿真软件列表

自动驾驶仿真软件列表

智能交通技术

13+阅读 · 2019年5月9日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

自动驾驶车载激光雷达技术现状分析

自动驾驶车载激光雷达技术现状分析

智能交通技术

17+阅读 · 2019年4月9日

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

中国自动化学会

15+阅读 · 2018年7月5日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

相关论文

ScenicRules: An Autonomous Driving Benchmark with Multi-Objective Specifications and Abstract Scenarios

Arxiv

0+阅读 · 2月17日

Foundation Models in Autonomous Driving: A Survey on Scenario Generation and Scenario Analysis

Arxiv

0+阅读 · 2月16日

RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation

Arxiv

0+阅读 · 2月11日

Driving with DINO: Vision Foundation Features as a Unified Bridge for Sim-to-Real Generation in Autonomous Driving

Arxiv

0+阅读 · 2月9日

Realistic adversarial scenario generation via human-like pedestrian model for autonomous vehicle control parameter optimisation

Arxiv

0+阅读 · 2月4日

Multi-Objective Optimization for Synthetic-to-Real Style Transfer

Arxiv

0+阅读 · 2月3日

A Graph-based Framework for Coverage Analysis in Autonomous Driving

Arxiv

0+阅读 · 1月31日

Quantifying Fidelity: A Decisive Feature Approach to Comparing Synthetic and Real Imagery

Arxiv

0+阅读 · 1月27日

AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月21日

AnyTask: an Automated Task and Data Generation Framework for Advancing Sim-to-Real Policy Learning

Arxiv

0+阅读 · 1月20日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

基于LiDAR数据的非栅格化道路矢量提取及融合高分影像的路网探测与优化

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员