Autonomous driving requires a structured understanding of the surrounding road network to navigate. One of the most common and useful representation of such an understanding is done in the form of BEV lane graphs. In this work, we use the video stream from an onboard camera for online extraction of the surrounding's lane graph. Using video, instead of a single image, as input poses both benefits and challenges in terms of combining the information from different timesteps. We study the emerged challenges using three different approaches. The first approach is a post-processing step that is capable of merging single frame lane graph estimates into a unified lane graph. The second approach uses the spatialtemporal embeddings in the transformer to enable the network to discover the best temporal aggregation strategy. Finally, the third, and the proposed method, is an early temporal aggregation through explicit BEV projection and alignment of framewise features. A single model of this proposed simple, yet effective, method can process any number of images, including one, to produce accurate lane graphs. The experiments on the Nuscenes and Argoverse datasets show the validity of all the approaches while highlighting the superiority of the proposed method. The code will be made public.


翻译:自动驾驶需要结构化理解周围道路网络以实现导航。最常用且有效的表征方式之一是鸟瞰视角下的车道图。本研究利用车载摄像头采集的视频流,实现周围环境车道图的在线提取。与单张图像输入相比,使用视频作为输入在跨时间步信息融合方面兼具优势与挑战。我们通过三种不同方法研究这些新出现的挑战。第一种方法采用后处理步骤,可将单帧车道图估计结果合并为统一的车道图;第二种方法利用Transformer中的时空嵌入能力,使网络自主发现最优的时间聚合策略;第三种方法(即本文提出的方法)通过显式的鸟瞰图投影与帧级特征对齐实现早期时间聚合。这种简单高效的方法仅需单一模型即可处理任意数量(包括单张)图像,并生成精确的车道图。在Nuscenes和Argoverse数据集上的实验验证了所有方法的有效性,同时凸显了所提方法的优越性。相关代码将开源。

0
下载
关闭预览

相关内容

【AAAI2022】(2.5+1)D时空场景图用于视频问答
专知会员服务
24+阅读 · 2022年2月21日
【KDD2020教程】多模态网络表示学习
专知会员服务
132+阅读 · 2020年8月26日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
BEVFormer:基于Transformer的自动驾驶BEV纯视觉感知
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
【泡泡一分钟】在CPU上进行实时无监督单目深度估计
泡泡机器人SLAM
17+阅读 · 2019年5月10日
【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM
泡泡机器人SLAM
23+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月23日
Arxiv
27+阅读 · 2023年1月5日
Arxiv
102+阅读 · 2020年3月4日
Deep Learning in Video Multi-Object Tracking: A Survey
Arxiv
58+阅读 · 2019年7月31日
VIP会员
最新内容
ICML 2026 | 演化选择的因果建模
专知会员服务
0+阅读 · 今天15:45
综述|学习式3D表征最新进展与趋势
专知会员服务
1+阅读 · 今天15:37
人工智能重塑威慑:算法优势的兴起
专知会员服务
3+阅读 · 今天14:27
AgentOps综述:智能体系统运维框架
专知会员服务
14+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
9+阅读 · 6月4日
《人工智能的挑战:算法战的想象与现实》
专知会员服务
11+阅读 · 6月4日
首场人工智能战争:Maven如何重塑武装冲突
专知会员服务
7+阅读 · 6月4日
相关VIP内容
【AAAI2022】(2.5+1)D时空场景图用于视频问答
专知会员服务
24+阅读 · 2022年2月21日
【KDD2020教程】多模态网络表示学习
专知会员服务
132+阅读 · 2020年8月26日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
BEVFormer:基于Transformer的自动驾驶BEV纯视觉感知
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
【泡泡一分钟】在CPU上进行实时无监督单目深度估计
泡泡机器人SLAM
17+阅读 · 2019年5月10日
【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM
泡泡机器人SLAM
23+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员