The dream of instantly creating rich 360-degree panoramic worlds from text is rapidly becoming a reality, yet a crucial gap exists in our ability to reliably evaluate their semantic alignment. Contrastive Language-Image Pre-training (CLIP) models, standard AI evaluators, predominantly trained on perspective image-text pairs, face an open question regarding their understanding of the unique characteristics of 360-degree panoramic image-text pairs. This paper addresses this gap by first introducing two concepts: \emph{360-degree textual semantics}, semantic information conveyed by explicit format identifiers, and \emph{360-degree visual semantics}, invariant semantics under horizontal circular shifts. To probe CLIP's comprehension of these semantics, we then propose novel evaluation methodologies using keyword manipulation and horizontal circular shifts of varying magnitudes. Rigorous statistical analyses across popular CLIP configurations reveal that: (1) CLIP models effectively leverage explicit textual identifiers, demonstrating an understanding of 360-degree textual semantics; and (2) CLIP models fail to robustly preserve semantic alignment under horizontal circular shifts, indicating limited comprehension of 360-degree visual semantics. To address this limitation, we propose a LoRA-based fine-tuning framework that explicitly instills invariance to circular shifts. Our fine-tuned models exhibit improved comprehension of 360-degree visual semantics, though with a slight degradation in original semantic evaluation performance, highlighting a fundamental trade-off in adapting CLIP to 360-degree panoramic images. Code is available at https://github.com/littlewhitesea/360Semantics.


翻译:从文本即时生成丰富360度全景世界的梦想正迅速成为现实,但在可靠评估其语义对齐方面仍存在关键空白。对比语言-图像预训练(CLIP)模型作为标准AI评估器,主要基于透视图像-文本对进行训练,其对360度全景图像-文本对独特特征的理解仍是一个开放性问题。本文首先通过引入两个概念来填补这一空白:其一为“360度文本语义”,即由显式格式标识符传达的语义信息;其二为“360度视觉语义”,即在水平圆周位移下保持不变的语义。为探究CLIP对这些语义的理解能力,我们随后提出利用关键词操作与不同幅度的水平圆周位移的新型评估方法。通过对多种主流CLIP配置进行严谨统计分析,我们发现:(1)CLIP模型能有效利用显式文本标识符,展现其对360度文本语义的理解;(2)CLIP模型在水平圆周位移下无法稳健保持语义对齐,表明其对360度视觉语义的理解有限。为解决这一局限,我们提出基于LoRA的微调框架,显式引入对圆周位移的不变性。经微调的模型在360度视觉语义理解上表现提升,但原始语义评估性能略有下降,这凸显了将CLIP适配至360度全景图像时的根本性权衡。代码开源于https://github.com/littlewhitesea/360Semantics。

0
下载
关闭预览

相关内容

中国领先的互联网安全服务与软件公司,主营以360安全卫士、360浏览器等为代表的网络安全产品。主要依靠在线广告、互联网增值服务创收。目前,公司PC端产品和服务的月活跃用户为4.42亿,市场渗透率为95%。

2012年8月,公司推出「360 搜索」业务,正式进军搜索引擎市场。作为中国互联网界最受争议的公司,奇虎360先后与腾讯、百度等互联网巨头产生过激烈的产品竞争。

2011年3月,公司以「QIHU」为代码正式登陆纽约证券交易所。

【ICML2025】FG-CLIP:细粒度视觉与文本对齐
专知会员服务
8+阅读 · 2025年5月18日
CLIP通用提示学习的简要概述
专知会员服务
17+阅读 · 2025年3月13日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
缩小CLIP规模:数据、架构与训练策略的全面分析
专知会员服务
22+阅读 · 2024年4月15日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月16日
VIP会员
最新内容
战略前沿人工智能的再思考(中文)
专知会员服务
6+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
5+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
15+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
【ICML2025】FG-CLIP:细粒度视觉与文本对齐
专知会员服务
8+阅读 · 2025年5月18日
CLIP通用提示学习的简要概述
专知会员服务
17+阅读 · 2025年3月13日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
缩小CLIP规模:数据、架构与训练策略的全面分析
专知会员服务
22+阅读 · 2024年4月15日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员