Geo-temporal understanding, the ability to infer location, time, and contextual properties from visual input alone, underpins applications such as disaster management, traffic planning, embodied navigation, world modeling, and geography education. Although recent vision-language models (VLMs) have advanced image geo-localization using cues like landmarks and road signs, their ability to reason about temporal signals and physically grounded spatial cues remains limited. To address this gap, we introduce TimeSpot, a benchmark for evaluating real-world geo-temporal reasoning in VLMs. TimeSpot comprises 1,455 ground-level images from 80 countries and requires structured prediction of temporal attributes (season, month, time of day, daylight phase) and geographic attributes (continent, country, climate zone, environment type, latitude-longitude) directly from visual evidence. It also includes spatial-temporal reasoning tasks that test physical plausibility under real-world uncertainty. Evaluations of state-of-the-art open- and closed-source VLMs show low performance, particularly for temporal inference. While supervised fine-tuning yields improvements, results remain insufficient, highlighting the need for new methods to achieve robust, physically grounded geo-temporal understanding TimeSpot is available at: https://TimeSpot-GT.github.io.


翻译:地理时间理解能力是指仅从视觉输入推断位置、时间及上下文属性的能力,支撑着灾害管理、交通规划、具身导航、世界建模和地理教育等应用。尽管近期视觉语言模型(VLM)已能通过地标、路标等线索实现图像地理定位,但其对时间信号及基于物理空间线索的推理能力仍十分有限。为弥补这一空白,我们提出了TimeSpot——一个评估VLM在真实场景中地理时间推理能力的基准。TimeSpot包含来自80个国家的1,455张地面视角图像,要求模型基于视觉证据直接对时间属性(季节、月份、时段、光照阶段)和地理属性(大洲、国家、气候带、环境类型、经纬度)进行结构化预测,并设置了在真实世界不确定性下测试物理合理性的时空推理任务。对当前最先进的开源与闭源VLM评估显示,其性能普遍较低,尤其在时间推理方面。尽管监督微调带来了一定改进,但结果仍不理想,凸显了发展新方法以实现稳健、基于物理空间的地理时间理解的必要性。TimeSpot代码公开于:https://TimeSpot-GT.github.io

0
下载
关闭预览

相关内容

基于大语言模型的时序知识图谱推理模型蒸馏方法
专知会员服务
38+阅读 · 2025年1月10日
《遥感时序视觉语言模型》全面综述
专知会员服务
30+阅读 · 2024年12月4日
基于深度学习的实时语义分割综述
专知会员服务
32+阅读 · 2023年11月27日
时空知识图谱研究进展与展望
专知会员服务
87+阅读 · 2023年7月7日
「深度学习时序预测」最新2023研究综述
专知会员服务
123+阅读 · 2023年3月19日
专知会员服务
74+阅读 · 2021年4月8日
专知会员服务
237+阅读 · 2020年12月15日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
视线估计(Gaze Estimation)简介(一):概述
CVer
10+阅读 · 2020年3月18日
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
GIS最新热点以及未来发展热门
人工智能学家
10+阅读 · 2018年3月29日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
基于大语言模型的时序知识图谱推理模型蒸馏方法
专知会员服务
38+阅读 · 2025年1月10日
《遥感时序视觉语言模型》全面综述
专知会员服务
30+阅读 · 2024年12月4日
基于深度学习的实时语义分割综述
专知会员服务
32+阅读 · 2023年11月27日
时空知识图谱研究进展与展望
专知会员服务
87+阅读 · 2023年7月7日
「深度学习时序预测」最新2023研究综述
专知会员服务
123+阅读 · 2023年3月19日
专知会员服务
74+阅读 · 2021年4月8日
专知会员服务
237+阅读 · 2020年12月15日
相关资讯
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
视线估计(Gaze Estimation)简介(一):概述
CVer
10+阅读 · 2020年3月18日
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
GIS最新热点以及未来发展热门
人工智能学家
10+阅读 · 2018年3月29日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员