MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark - 专知论文

会员服务 ·

0

模态 · 声纹识别 · 多模 · 数据集 · 识别 ·

MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset and Benchmark

翻译：MMS-VPR：多模态街景视觉位置识别数据集与基准

Yiwei Ou,Xiaobin Ren,Ronggui Sun,Guansong Gao,Kaiqi Zhao,Manfredo Manfredini

from arxiv, Under review

Existing visual place recognition (VPR) datasets predominantly rely on vehicle-mounted imagery, offer limited multimodal diversity, and underrepresent dense pedestrian street scenes, particularly in non-Western urban contexts. We introduce MMS-VPR, a large-scale multimodal dataset for street-level place recognition in pedestrian-only environments. MMS-VPR comprises 110,529 images and 2,527 video clips across 208 locations in a ~70,800 $m^2$ open-air commercial district in Chengdu, China. Field data were collected in 2024, while social media data span seven years (2019-2025), providing both fine-grained temporal granularity and long-term temporal coverage. Each location features comprehensive day-night coverage, multiple viewing angles, and multimodal annotations including GPS coordinates, timestamps, and semantic textual metadata. We further release MMS-VPRlib, a unified benchmarking platform that consolidates commonly used VPR datasets and state-of-the-art methods under a standardized, reproducible pipeline. MMS-VPRlib provides modular components for data pre-processing, multimodal modeling (CNN/RNN/Transformer), signal enhancement, alignment, fusion, and performance evaluation. This platform moves beyond traditional image-only paradigms, enabling systematic exploitation of complementary visual, video, and textual modalities. The dataset is available at https://huggingface.co/datasets/Yiwei-Ou/MMS-VPR and the benchmark at https://github.com/yiasun/MMS-VPRlib.

翻译：现有的视觉位置识别数据集主要依赖车载图像，多模态多样性有限，且对密集行人街景（尤其是在非西方城市环境中）的代表性不足。我们提出了MMS-VPR，一个用于纯行人环境街景位置识别的大规模多模态数据集。MMS-VPR包含来自中国成都约70,800平方米露天商业区208个地点的110,529张图像和2,527个视频片段。实地数据采集于2024年，而社交媒体数据跨越七年（2019-2025年），既提供了细粒度的时间分辨率，也实现了长期的时间覆盖。每个地点均具备完整的昼夜覆盖、多视角拍摄以及多模态标注，包括GPS坐标、时间戳和语义文本元数据。我们进一步发布了MMS-VPRlib，一个统一的基准测试平台，该平台将常用的VPR数据集和最先进的方法整合到一个标准化、可复现的流程中。MMS-VPRlib提供了数据预处理、多模态建模（CNN/RNN/Transformer）、信号增强、对齐、融合以及性能评估的模块化组件。该平台超越了传统的纯图像范式，能够系统性地利用互补的视觉、视频和文本模态。数据集发布于 https://huggingface.co/datasets/Yiwei-Ou/MMS-VPR，基准测试平台发布于 https://github.com/yiasun/MMS-VPRlib。

0

相关内容

跨多种数据模态的视觉目标跟踪：综述

跨多种数据模态的视觉目标跟踪：综述

专知会员服务

30+阅读 · 2024年12月16日

MME-Survey：多模态大型语言模型评估的综合性调查

MME-Survey：多模态大型语言模型评估的综合性调查

专知会员服务

43+阅读 · 2024年12月1日

《面向视觉语言地理基础模型》综述

《面向视觉语言地理基础模型》综述

专知会员服务

47+阅读 · 2024年6月15日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

MM-REACT:提示ChatGPT进行多模态推理和行动

MM-REACT:提示ChatGPT进行多模态推理和行动

专知会员服务

35+阅读 · 2023年3月26日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【CVPR 2022】基于双噪声标签的可见光-红外人再识别学习，Learning with Twin Noisy Labels for Visible-Infrared Person Re-Identification

【CVPR 2022】基于双噪声标签的可见光-红外人再识别学习，Learning with Twin Noisy Labels for Visible-Infrared Person Re-Identification

专知会员服务

14+阅读 · 2022年3月28日

【MM 2021】基于统一中间模态学习的视红外人再识别,Towards a Unified Middle Modality Learning for Visible-Infrared Person Re-Identification

【MM 2021】基于统一中间模态学习的视红外人再识别,Towards a Unified Middle Modality Learning for Visible-Infrared Person Re-Identification

专知会员服务

12+阅读 · 2022年3月22日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

专知会员服务

57+阅读 · 2019年11月20日

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

专知

17+阅读 · 2019年10月29日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

微软研究院AI头条

10+阅读 · 2019年7月5日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

CVPR2019| 05-17更新11篇论文及代码合集（含一篇oral，视觉跟踪/实例分割/行人重识别等）

CVPR2019| 05-17更新11篇论文及代码合集（含一篇oral，视觉跟踪/实例分割/行人重识别等）

极市平台

11+阅读 · 2019年5月17日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

商汤科技

14+阅读 · 2018年6月2日

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

极市平台

14+阅读 · 2018年3月21日

从人脸识别到行人重识别，下一个风口

从人脸识别到行人重识别，下一个风口

计算机视觉战队

13+阅读 · 2017年11月24日

基于LiDAR数据的非栅格化道路矢量提取及融合高分影像的路网探测与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

行人重识别目标中心编码外观模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

多特征融合与集成学习的城市高分辨率遥感影像变化检测

国家自然科学基金

4+阅读 · 2014年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Arxiv

0+阅读 · 3月12日

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Arxiv

0+阅读 · 2月21日

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Arxiv

0+阅读 · 2月16日

Hallucinating 360°: Panoramic Street-View Generation via Local Scenes Diffusion and Probabilistic Prompting

Arxiv

0+阅读 · 2月13日

EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition

Arxiv

0+阅读 · 2月13日

RoadscapesQA: A Multitask, Multimodal Dataset for Visual Question Answering on Indian Roads

Arxiv

0+阅读 · 2月13日

MMSF: Multitask and Multimodal Supervised Framework for WSI Classification and Survival Analysis

Arxiv

0+阅读 · 2月4日

MM-SCALE: Grounded Multimodal Moral Reasoning via Scalar Judgment and Listwise Alignment

Arxiv

0+阅读 · 2月3日

LaVPR: Benchmarking Language and Vision for Place Recognition

Arxiv

0+阅读 · 2月3日

Efficient Cross-Country Data Acquisition Strategy for ADAS via Street-View Imagery

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

1+阅读 · 57分钟前

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

4+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

3+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

5+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

5+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

5+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

5+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

12+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

4+阅读 · 4月24日

相关VIP内容

跨多种数据模态的视觉目标跟踪：综述

跨多种数据模态的视觉目标跟踪：综述

专知会员服务

30+阅读 · 2024年12月16日

MME-Survey：多模态大型语言模型评估的综合性调查

MME-Survey：多模态大型语言模型评估的综合性调查

专知会员服务

43+阅读 · 2024年12月1日

《面向视觉语言地理基础模型》综述

《面向视觉语言地理基础模型》综述

专知会员服务

47+阅读 · 2024年6月15日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

MM-REACT:提示ChatGPT进行多模态推理和行动

MM-REACT:提示ChatGPT进行多模态推理和行动

专知会员服务

35+阅读 · 2023年3月26日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【CVPR 2022】基于双噪声标签的可见光-红外人再识别学习，Learning with Twin Noisy Labels for Visible-Infrared Person Re-Identification

【CVPR 2022】基于双噪声标签的可见光-红外人再识别学习，Learning with Twin Noisy Labels for Visible-Infrared Person Re-Identification

专知会员服务

14+阅读 · 2022年3月28日

【MM 2021】基于统一中间模态学习的视红外人再识别,Towards a Unified Middle Modality Learning for Visible-Infrared Person Re-Identification

【MM 2021】基于统一中间模态学习的视红外人再识别,Towards a Unified Middle Modality Learning for Visible-Infrared Person Re-Identification

专知会员服务

12+阅读 · 2022年3月22日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

专知会员服务

57+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

专知

17+阅读 · 2019年10月29日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

微软研究院AI头条

10+阅读 · 2019年7月5日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

CVPR2019| 05-17更新11篇论文及代码合集（含一篇oral，视觉跟踪/实例分割/行人重识别等）

CVPR2019| 05-17更新11篇论文及代码合集（含一篇oral，视觉跟踪/实例分割/行人重识别等）

极市平台

11+阅读 · 2019年5月17日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

商汤科技

14+阅读 · 2018年6月2日

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

CVPR 2018 | 使用CNN生成图像先验，实现更广泛场景的盲图像去模糊

极市平台

14+阅读 · 2018年3月21日

从人脸识别到行人重识别，下一个风口

从人脸识别到行人重识别，下一个风口

计算机视觉战队

13+阅读 · 2017年11月24日

相关论文

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Arxiv

0+阅读 · 3月12日

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Arxiv

0+阅读 · 2月21日

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Arxiv

0+阅读 · 2月16日

Hallucinating 360°: Panoramic Street-View Generation via Local Scenes Diffusion and Probabilistic Prompting

Arxiv

0+阅读 · 2月13日

EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition

Arxiv

0+阅读 · 2月13日

RoadscapesQA: A Multitask, Multimodal Dataset for Visual Question Answering on Indian Roads

Arxiv

0+阅读 · 2月13日

MMSF: Multitask and Multimodal Supervised Framework for WSI Classification and Survival Analysis

Arxiv

0+阅读 · 2月4日

MM-SCALE: Grounded Multimodal Moral Reasoning via Scalar Judgment and Listwise Alignment

Arxiv

0+阅读 · 2月3日

LaVPR: Benchmarking Language and Vision for Place Recognition

Arxiv

0+阅读 · 2月3日

Efficient Cross-Country Data Acquisition Strategy for ADAS via Street-View Imagery

Arxiv

0+阅读 · 2月2日

相关基金

基于LiDAR数据的非栅格化道路矢量提取及融合高分影像的路网探测与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

行人重识别目标中心编码外观模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

多特征融合与集成学习的城市高分辨率遥感影像变化检测

国家自然科学基金

4+阅读 · 2014年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员