Data scaling is fundamental to modern deep learning, and grows increasingly critical as autonomous driving shifts to end-to-end learning. Real-world driving data is expensive to annotate and scene-biased, making real-synthetic co-training with near-infinite synthetic data a promising direction. However, naively incorporating all available synthetic data is inefficient and leads to distribution shifts, and optimizing data mixture under practical training budgets remains a critical yet under-explored problem. In this sense, we claim that the mixture of training data requires clear guidance in terms of scene types and quantities. Particularly in this work, we conceptualize the data mixture approximately as a dynamic optimization process that iteratively adjusts the training data mixture to maximize model performance, guided by closed-loop evaluation feedback, and propose AutoScale, a fully automated closed-loop data engine unifying scene representation, data mixture optimization and retrieval, as well as model training and evaluation. Specifically, we propose Graph Regularized AutoEncoder (Graph-RAE) for driving scene representations, introduce Cluster-aware Gradient Ascent (Cluster-GA) for cluster-wise importance estimation and reweighting, and perform cluster-guided vector retrieval to select high-value samples. Experiments on NavSim demonstrate that AutoScale outperforms vanilla co-training and cross-domain baselines, achieving better performance with fewer synthetic samples under constrained budgets.


翻译:数据规模化是现代深度学习的基础,随着自动驾驶转向端到端学习,其重要性日益凸显。真实驾驶数据的标注成本高昂且存在场景偏差,而利用近乎无限生成的合成数据开展真实-合成协同训练展现出广阔前景。然而,盲目引入所有可用合成数据会导致效率低下与分布偏移问题,如何在有限训练预算下优化数据混合仍是一个关键但尚未充分探索的课题。基于此,我们认为训练数据混合在场景类型与数量层面亟需明确指导。具体而言,本研究将数据混合近似描述为动态优化过程——通过闭环评估反馈的引导,迭代调整训练数据混合比例以最大化模型性能。我们提出AutoScale全自动闭环数据引擎,统一了场景表征、数据混合优化与检索、以及模型训练与评估。技术上,我们提出图正则化自编码器(Graph-RAE)用于驾驶场景表征,引入聚类感知梯度上升(Cluster-GA)实现簇级重要性估计与权重重分配,并通过聚类引导的向量检索选取高价值样本。在NavSim上的实验表明,AutoScale在约束预算下使用更少合成样本即可超越传统协同训练与跨域基线方法,取得更优性能。

0
下载
关闭预览

相关内容

《利用合成数据生成加强军事决策支持》
专知会员服务
43+阅读 · 2024年12月30日
谷歌最新《大语言模型合成数据的最佳实践和经验教训》
自动驾驶开源数据体系:现状与未来
专知会员服务
41+阅读 · 2024年1月28日
基于深度学习的数据融合方法研究综述
专知会员服务
147+阅读 · 2020年12月10日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
半监督深度学习小结:类协同训练和一致性正则化
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
338+阅读 · 2017年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
338+阅读 · 2017年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员