TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings - 专知论文

会员服务 ·

0

可理解性 · MoDELS · 情景 · 推断 · 回合 ·

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

翻译：TimeSpot：在真实场景中评估视觉语言模型的地理时间理解能力基准

Azmine Toushik Wasi,Shahriyar Zaman Ridoy,Koushik Ahamed Tonmoy,Kinga Tshering,S. M. Muhtasimul Hasan,Wahid Faisal,Tasnim Mohiuddin,Md Rizwan Parvez

from arxiv, Accepted to ICML 2026

Geo-temporal understanding, the ability to infer location, time, and contextual properties from visual input alone, underpins applications such as disaster management, traffic planning, embodied navigation, world modeling, and geography education. Although recent vision-language models (VLMs) have advanced image geo-localization using cues like landmarks and road signs, their ability to reason about temporal signals and physically grounded spatial cues remains limited. To address this gap, we introduce TimeSpot, a benchmark for evaluating real-world geo-temporal reasoning in VLMs. TimeSpot comprises 1,455 ground-level images from 80 countries and requires structured prediction of temporal attributes (season, month, time of day, daylight phase) and geographic attributes (continent, country, climate zone, environment type, latitude-longitude) directly from visual evidence. It also includes spatial-temporal reasoning tasks that test physical plausibility under real-world uncertainty. Evaluations of state-of-the-art open- and closed-source VLMs show low performance, particularly for temporal inference. While supervised fine-tuning yields improvements, results remain insufficient, highlighting the need for new methods to achieve robust, physically grounded geo-temporal understanding TimeSpot is available at: https://TimeSpot-GT.github.io.

翻译：地理时间理解能力是指仅从视觉输入推断位置、时间及上下文属性的能力，支撑着灾害管理、交通规划、具身导航、世界建模和地理教育等应用。尽管近期视觉语言模型（VLM）已能通过地标、路标等线索实现图像地理定位，但其对时间信号及基于物理空间线索的推理能力仍十分有限。为弥补这一空白，我们提出了TimeSpot——一个评估VLM在真实场景中地理时间推理能力的基准。TimeSpot包含来自80个国家的1,455张地面视角图像，要求模型基于视觉证据直接对时间属性（季节、月份、时段、光照阶段）和地理属性（大洲、国家、气候带、环境类型、经纬度）进行结构化预测，并设置了在真实世界不确定性下测试物理合理性的时空推理任务。对当前最先进的开源与闭源VLM评估显示，其性能普遍较低，尤其在时间推理方面。尽管监督微调带来了一定改进，但结果仍不理想，凸显了发展新方法以实现稳健、基于物理空间的地理时间理解的必要性。TimeSpot代码公开于：https://TimeSpot-GT.github.io

0

相关内容

可理解性

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

37+阅读 · 3月14日

【博士论文】视觉处理中的时域适应：人类与视觉模型带来的启示

【博士论文】视觉处理中的时域适应：人类与视觉模型带来的启示

专知会员服务

32+阅读 · 1月29日

基于大语言模型的时序知识图谱推理模型蒸馏方法

基于大语言模型的时序知识图谱推理模型蒸馏方法

专知会员服务

38+阅读 · 2025年1月10日

《遥感时序视觉语言模型》全面综述

《遥感时序视觉语言模型》全面综述

专知会员服务

30+阅读 · 2024年12月4日

基于深度学习的实时语义分割综述

基于深度学习的实时语义分割综述

专知会员服务

32+阅读 · 2023年11月27日

时空知识图谱研究进展与展望

时空知识图谱研究进展与展望

专知会员服务

87+阅读 · 2023年7月7日

「深度学习时序预测」最新2023研究综述

「深度学习时序预测」最新2023研究综述

专知会员服务

123+阅读 · 2023年3月19日

时空轨迹序列模式挖掘方法综述

专知会员服务

74+阅读 · 2021年4月8日

时间序列预测方法综述

专知会员服务

237+阅读 · 2020年12月15日

【KDD2020】百度地图上用于估计旅行时间的上下文时空图注意网络

专知会员服务

23+阅读 · 2020年10月19日

时空序列预测方法综述

时空序列预测方法综述

专知

22+阅读 · 2020年10月19日

视线估计(Gaze Estimation)简介(一)：概述

视线估计(Gaze Estimation)简介(一)：概述

CVer

10+阅读 · 2020年3月18日

你真的懂时间序列预测吗？

你真的懂时间序列预测吗？

腾讯大讲堂

104+阅读 · 2019年1月7日

R语言时间序列分析

R语言时间序列分析

R语言中文社区

12+阅读 · 2018年11月19日

利用动态深度学习预测金融时间序列基于Python

利用动态深度学习预测金融时间序列基于Python

量化投资与机器学习

18+阅读 · 2018年10月30日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

图像美学质量评价技术发展趋势

图像美学质量评价技术发展趋势

科技导报

19+阅读 · 2018年6月25日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

GIS最新热点以及未来发展热门

GIS最新热点以及未来发展热门

人工智能学家

10+阅读 · 2018年3月29日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

网络舆情大数据的地理空间情报价值发现与挖掘

国家自然科学基金

11+阅读 · 2015年12月31日

社会化媒体上信息时空传播的可视分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

高维时空场数据的层次张量建模与分析方法

国家自然科学基金

2+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

DRIVESPATIAL: A Benchmark for Spatiotemporal Intelligence in VLMs for Autonomous Driving

Arxiv

0+阅读 · 6月15日

Chronological Blindness: Benchmarking Temporal Reasoning in Vision-Language Models with CHRONOSIGHT

Arxiv

0+阅读 · 6月15日

TimeVista: Exploring and Exploiting Vision-Language Models as Judges for Time Series Forecasting

Arxiv

0+阅读 · 6月15日

Estimating Mutual Information between Time Series and Temporal Event Sequences Across Diverse Analysis Tasks

Arxiv

0+阅读 · 6月14日

Intelligent Multimodal Retrieval and Reasoning for Geospatial Knowledge Discovery on the I-GUIDE Platform

Arxiv

0+阅读 · 6月14日

OmniTraffic: A Controllable Generation Pipeline and Benchmark for Spatio-Temporal Traffic Reasoning

Arxiv

0+阅读 · 6月14日

Watch, Remember, Reason: Human-View Video Understanding with MLLMs

Arxiv

0+阅读 · 6月5日

DRScaffold: Boosting Dense-Scene Reasoning in Lightweight Vision Language Models

Arxiv

0+阅读 · 5月25日

Semantic-Enhanced Time-Series Forecasting via Large Language Models

Arxiv

0+阅读 · 5月11日

Scalable inference of spatial regions and temporal signatures from time series

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

37+阅读 · 3月14日

【博士论文】视觉处理中的时域适应：人类与视觉模型带来的启示

【博士论文】视觉处理中的时域适应：人类与视觉模型带来的启示

专知会员服务

32+阅读 · 1月29日

基于大语言模型的时序知识图谱推理模型蒸馏方法

基于大语言模型的时序知识图谱推理模型蒸馏方法

专知会员服务

38+阅读 · 2025年1月10日

《遥感时序视觉语言模型》全面综述

《遥感时序视觉语言模型》全面综述

专知会员服务

30+阅读 · 2024年12月4日

基于深度学习的实时语义分割综述

基于深度学习的实时语义分割综述

专知会员服务

32+阅读 · 2023年11月27日

时空知识图谱研究进展与展望

时空知识图谱研究进展与展望

专知会员服务

87+阅读 · 2023年7月7日

「深度学习时序预测」最新2023研究综述

「深度学习时序预测」最新2023研究综述

专知会员服务

123+阅读 · 2023年3月19日

时空轨迹序列模式挖掘方法综述

专知会员服务

74+阅读 · 2021年4月8日

时间序列预测方法综述

专知会员服务

237+阅读 · 2020年12月15日

【KDD2020】百度地图上用于估计旅行时间的上下文时空图注意网络

专知会员服务

23+阅读 · 2020年10月19日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

时空序列预测方法综述

时空序列预测方法综述

专知

22+阅读 · 2020年10月19日

视线估计(Gaze Estimation)简介(一)：概述

视线估计(Gaze Estimation)简介(一)：概述

CVer

10+阅读 · 2020年3月18日

你真的懂时间序列预测吗？

你真的懂时间序列预测吗？

腾讯大讲堂

104+阅读 · 2019年1月7日

R语言时间序列分析

R语言时间序列分析

R语言中文社区

12+阅读 · 2018年11月19日

利用动态深度学习预测金融时间序列基于Python

利用动态深度学习预测金融时间序列基于Python

量化投资与机器学习

18+阅读 · 2018年10月30日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

图像美学质量评价技术发展趋势

图像美学质量评价技术发展趋势

科技导报

19+阅读 · 2018年6月25日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

GIS最新热点以及未来发展热门

GIS最新热点以及未来发展热门

人工智能学家

10+阅读 · 2018年3月29日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

相关论文

DRIVESPATIAL: A Benchmark for Spatiotemporal Intelligence in VLMs for Autonomous Driving

Arxiv

0+阅读 · 6月15日

Chronological Blindness: Benchmarking Temporal Reasoning in Vision-Language Models with CHRONOSIGHT

Arxiv

0+阅读 · 6月15日

TimeVista: Exploring and Exploiting Vision-Language Models as Judges for Time Series Forecasting

Arxiv

0+阅读 · 6月15日

Estimating Mutual Information between Time Series and Temporal Event Sequences Across Diverse Analysis Tasks

Arxiv

0+阅读 · 6月14日

Intelligent Multimodal Retrieval and Reasoning for Geospatial Knowledge Discovery on the I-GUIDE Platform

Arxiv

0+阅读 · 6月14日

OmniTraffic: A Controllable Generation Pipeline and Benchmark for Spatio-Temporal Traffic Reasoning

Arxiv

0+阅读 · 6月14日

Watch, Remember, Reason: Human-View Video Understanding with MLLMs

Arxiv

0+阅读 · 6月5日

DRScaffold: Boosting Dense-Scene Reasoning in Lightweight Vision Language Models

Arxiv

0+阅读 · 5月25日

Semantic-Enhanced Time-Series Forecasting via Large Language Models

Arxiv

0+阅读 · 5月11日

Scalable inference of spatial regions and temporal signatures from time series

Arxiv

0+阅读 · 5月6日

相关基金

网络舆情大数据的地理空间情报价值发现与挖掘

国家自然科学基金

11+阅读 · 2015年12月31日

社会化媒体上信息时空传播的可视分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

高维时空场数据的层次张量建模与分析方法

国家自然科学基金

2+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员