RoadscapesQA：面向印度道路视觉问答的多任务多模态数据集 (RoadscapesQA: A Multitask, Multimodal Dataset for Visual Question Answering on Indian Roads) - 专知论文

会员服务 ·

0

数据集 · 问答 · 多模 · 模态 · 场景理解 ·

RoadscapesQA: A Multitask, Multimodal Dataset for Visual Question Answering on Indian Roads

翻译：RoadscapesQA：面向印度道路视觉问答的多任务多模态数据集

Vijayasri Iyer,Maahin Rathinagiriswaran,Jyothikamalesh S

Understanding road scenes is essential for autonomous driving, as it enables systems to interpret visual surroundings to aid in effective decision-making. We present Roadscapes, a multitask multimodal dataset consisting of upto 9,000 images captured in diverse Indian driving environments, accompanied by manually verified bounding boxes. To facilitate scalable scene understanding, we employ rule-based heuristics to infer various scene attributes, which are subsequently used to generate question-answer (QA) pairs for tasks such as object grounding, reasoning, and scene understanding. The dataset includes a variety of scenes from urban and rural India, encompassing highways, service roads, village paths, and congested city streets, captured in both daytime and nighttime settings. Roadscapes has been curated to advance research on visual scene understanding in unstructured environments. In this paper, we describe the data collection and annotation process, present key dataset statistics, and provide initial baselines for image QA tasks using vision-language models.

翻译：理解道路场景对于自动驾驶至关重要，它使系统能够解释视觉环境以辅助有效决策。本文提出Roadscapes数据集，这是一个多任务多模态数据集，包含在多样化印度驾驶环境中采集的约9,000张图像，并配有经人工验证的边界框。为促进可扩展的场景理解，我们采用基于规则的启发式方法推断各类场景属性，并利用这些属性生成面向目标定位、推理和场景理解等任务的问答对。数据集涵盖印度城乡多种场景，包括高速公路、辅路、乡村道路和拥堵的城市街道，并包含日间与夜间拍摄条件。Roadscapes数据集旨在推动非结构化环境中视觉场景理解的研究。本文详细描述了数据采集与标注流程，展示了关键数据集统计信息，并利用视觉-语言模型为图像问答任务提供了初步基线结果。

0

相关内容

数据集

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

深度多模态数据融合

深度多模态数据融合

专知会员服务

55+阅读 · 2024年11月9日

自动驾驶开源数据体系：现状与未来

自动驾驶开源数据体系：现状与未来

专知会员服务

41+阅读 · 2024年1月28日

《多模态3D场景理解》最新综述

《多模态3D场景理解》最新综述

专知会员服务

191+阅读 · 2023年10月28日

港中文发布最新《自动驾驶三维物体检测》综述论文，32页pdf涵盖367篇文献全面概述基于激光雷达、基于相机和多模态的物体检测进展

港中文发布最新《自动驾驶三维物体检测》综述论文，32页pdf涵盖367篇文献全面概述基于激光雷达、基于相机和多模态的物体检测进展

专知会员服务

44+阅读 · 2022年6月23日

【行业标准】基于车路协同的高等级自动驾驶数据交互内容，117页pdf

【行业标准】基于车路协同的高等级自动驾驶数据交互内容，117页pdf

专知会员服务

59+阅读 · 2022年3月16日

如何在交通领域构建基于图的深度学习体系结构:一个综述，How to Build a Graph-Based Deep Learning Architecture in Traffic Domain: A Survey

如何在交通领域构建基于图的深度学习体系结构:一个综述，How to Build a Graph-Based Deep Learning Architecture in Traffic Domain: A Survey

专知会员服务

51+阅读 · 2020年5月26日

自动驾驶汽车的计算机视觉全面综述论文：问题、数据集和现状，附283页PDF下载

自动驾驶汽车的计算机视觉全面综述论文：问题、数据集和现状，附283页PDF下载

专知会员服务

113+阅读 · 2019年12月20日

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

专知会员服务

13+阅读 · 2019年12月18日

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

专知会员服务

33+阅读 · 2019年11月28日

【AAAI2020论文】GMAN：基于图多注意力网络的交通检测（GMAN: A Graph Multi-Attention Network for Traffic Prediction），范晓亮，戚建中等

【AAAI2020论文】GMAN：基于图多注意力网络的交通检测（GMAN: A Graph Multi-Attention Network for Traffic Prediction），范晓亮，戚建中等

专知会员服务

76+阅读 · 2019年11月22日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

【资源】深度学习视频分析/多模态学习资源大列表

【资源】深度学习视频分析/多模态学习资源大列表

专知

48+阅读 · 2019年10月17日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

专知

23+阅读 · 2019年1月30日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

智能交通大数据最新论文综述-附PDF下载

智能交通大数据最新论文综述-附PDF下载

专知

22+阅读 · 2019年1月21日

大规模多视角高维图像特征提取

国家自然科学基金

3+阅读 · 2017年12月31日

基于LiDAR数据的非栅格化道路矢量提取及融合高分影像的路网探测与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于生物视觉启发特征和遮挡模型的复杂道路环境目标检测方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

交通场景下基于视频的智能监控分析关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

交通信息对驾驶员路径选择行为及交通流特性影响的研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

Boreas Road Trip: A Multi-Sensor Autonomous Driving Dataset on Challenging Roads

Arxiv

0+阅读 · 2月18日

ScenicRules: An Autonomous Driving Benchmark with Multi-Objective Specifications and Abstract Scenarios

Arxiv

0+阅读 · 2月17日

MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark

Arxiv

0+阅读 · 2月17日

Hallucinating 360°: Panoramic Street-View Generation via Local Scenes Diffusion and Probabilistic Prompting

Arxiv

0+阅读 · 2月13日

Talk2DM: Enabling Natural Language Querying and Commonsense Reasoning for Vehicle-Road-Cloud Integrated Dynamic Maps with Large Language Models

Arxiv

0+阅读 · 2月12日

WaymoQA: A Multi-View Visual Question Answering Dataset for Safety-Critical Reasoning in Autonomous Driving

Arxiv

0+阅读 · 2月11日

Modelling Pedestrian Behaviour in Autonomous Vehicle Encounters Using Naturalistic Dataset

Arxiv

0+阅读 · 2月4日

UrbanIng-V2X: A Large-Scale Multi-Vehicle, Multi-Infrastructure Dataset Across Multiple Intersections for Cooperative Perception

Arxiv

0+阅读 · 2月2日

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月27日

UrbanIng-V2X: A Large-Scale Multi-Vehicle, Multi-Infrastructure Dataset Across Multiple Intersections for Cooperative Perception

Arxiv

0+阅读 · 1月23日

VIP会员

文章信息

相关主题

相关VIP内容

深度多模态数据融合

深度多模态数据融合

专知会员服务

55+阅读 · 2024年11月9日

自动驾驶开源数据体系：现状与未来

自动驾驶开源数据体系：现状与未来

专知会员服务

41+阅读 · 2024年1月28日

《多模态3D场景理解》最新综述

《多模态3D场景理解》最新综述

专知会员服务

191+阅读 · 2023年10月28日

港中文发布最新《自动驾驶三维物体检测》综述论文，32页pdf涵盖367篇文献全面概述基于激光雷达、基于相机和多模态的物体检测进展

港中文发布最新《自动驾驶三维物体检测》综述论文，32页pdf涵盖367篇文献全面概述基于激光雷达、基于相机和多模态的物体检测进展

专知会员服务

44+阅读 · 2022年6月23日

【行业标准】基于车路协同的高等级自动驾驶数据交互内容，117页pdf

【行业标准】基于车路协同的高等级自动驾驶数据交互内容，117页pdf

专知会员服务

59+阅读 · 2022年3月16日

如何在交通领域构建基于图的深度学习体系结构:一个综述，How to Build a Graph-Based Deep Learning Architecture in Traffic Domain: A Survey

如何在交通领域构建基于图的深度学习体系结构:一个综述，How to Build a Graph-Based Deep Learning Architecture in Traffic Domain: A Survey

专知会员服务

51+阅读 · 2020年5月26日

自动驾驶汽车的计算机视觉全面综述论文：问题、数据集和现状，附283页PDF下载

自动驾驶汽车的计算机视觉全面综述论文：问题、数据集和现状，附283页PDF下载

专知会员服务

113+阅读 · 2019年12月20日

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

专知会员服务

13+阅读 · 2019年12月18日

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

【CVPR 2019 | tutorial】自主汽车的感知、预测和大规模数据采集：Perception, Prediction, and Large Scale Data Collection for Autonomous Cars

专知会员服务

33+阅读 · 2019年11月28日

【AAAI2020论文】GMAN：基于图多注意力网络的交通检测（GMAN: A Graph Multi-Attention Network for Traffic Prediction），范晓亮，戚建中等

【AAAI2020论文】GMAN：基于图多注意力网络的交通检测（GMAN: A Graph Multi-Attention Network for Traffic Prediction），范晓亮，戚建中等

专知会员服务

76+阅读 · 2019年11月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

【资源】深度学习视频分析/多模态学习资源大列表

【资源】深度学习视频分析/多模态学习资源大列表

专知

48+阅读 · 2019年10月17日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

视觉推理任务中的ImageNet：斯坦福GQA数据集重磅发布

专知

23+阅读 · 2019年1月30日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

智能交通大数据最新论文综述-附PDF下载

智能交通大数据最新论文综述-附PDF下载

专知

22+阅读 · 2019年1月21日

相关论文

Boreas Road Trip: A Multi-Sensor Autonomous Driving Dataset on Challenging Roads

Arxiv

0+阅读 · 2月18日

ScenicRules: An Autonomous Driving Benchmark with Multi-Objective Specifications and Abstract Scenarios

Arxiv

0+阅读 · 2月17日

MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark

Arxiv

0+阅读 · 2月17日

Hallucinating 360°: Panoramic Street-View Generation via Local Scenes Diffusion and Probabilistic Prompting

Arxiv

0+阅读 · 2月13日

Talk2DM: Enabling Natural Language Querying and Commonsense Reasoning for Vehicle-Road-Cloud Integrated Dynamic Maps with Large Language Models

Arxiv

0+阅读 · 2月12日

WaymoQA: A Multi-View Visual Question Answering Dataset for Safety-Critical Reasoning in Autonomous Driving

Arxiv

0+阅读 · 2月11日

Modelling Pedestrian Behaviour in Autonomous Vehicle Encounters Using Naturalistic Dataset

Arxiv

0+阅读 · 2月4日

UrbanIng-V2X: A Large-Scale Multi-Vehicle, Multi-Infrastructure Dataset Across Multiple Intersections for Cooperative Perception

Arxiv

0+阅读 · 2月2日

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月27日

UrbanIng-V2X: A Large-Scale Multi-Vehicle, Multi-Infrastructure Dataset Across Multiple Intersections for Cooperative Perception

Arxiv

0+阅读 · 1月23日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

3+阅读 · 2017年12月31日

基于LiDAR数据的非栅格化道路矢量提取及融合高分影像的路网探测与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于生物视觉启发特征和遮挡模型的复杂道路环境目标检测方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

交通场景下基于视频的智能监控分析关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

交通信息对驾驶员路径选择行为及交通流特性影响的研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员