Social media platforms have become primary arenas for climate communication, generating millions of images and posts that - if systematically analysed - can reveal which communication strategies mobilise public concern and which fall flat. We aim to facilitate such research by analysing how computer vision methods can be used for social media discourse analysis. This analysis includes application-based taxonomy design, model selection, prompt engineering, and validation. We benchmark six promptable vision-language models and 15 zero-shot CLIP-like models on two datasets from X (formerly Twitter) - a 1,038-image expert-annotated set and a larger corpus of over 1.2 million images, with 50,000 labels manually validated - spanning five annotation dimensions: animal content, climate change consequences, climate action, image setting, and image type. Among the models benchmarked, Gemini-3.1-flash-lite outperforms all others across all super-categories and both datasets, while the gap to open-weight models of moderate size remains relatively small. Beyond instance-level metrics, we advocate for distributional evaluation: VLM predictions can reliably recover population level trends even when per-image accuracy is moderate, making them a viable starting point for discourse analysis at scale. We find that chain-of-thought reasoning reduces rather than improves performance, and that annotation dimension specific prompt design improves performance. We release tweet IDs and labels along with our code at https://github.com/KathPra/Codebooks2VLMs.git.


翻译:社交媒体平台已成为气候传播的主要阵地,其生成的数百万条帖子和图片若经系统分析,可揭示哪些传播策略能激发公众关注,哪些策略则效果不佳。本研究旨在通过分析计算机视觉方法在社交媒体话语分析中的应用,推动此类研究,内容涵盖基于应用场景的分类体系设计、模型选择、提示工程及验证。我们基于来自X(前身为Twitter)的两个数据集——一个经专家标注的包含1038张图片的集合,以及一个包含超120万张图片、5万条经人工验证标签的更大语料库——对六个可提示视觉语言模型和15个零样本类CLIP模型进行了基准测试,涵盖五个标注维度:动物内容、气候变化后果、气候行动、图像场景及图像类型。在基准测试模型中,Gemini-3.1-flash-lite在所有超级类别和两个数据集上均优于其他模型,而与中等规模开源模型之间的差距相对较小。除实例级指标外,我们倡导采用分布级评估:即便每张图片的准确性中等,视觉语言模型的预测仍能可靠恢复总体趋势,使其成为大规模话语分析的可行起点。我们发现,思维链推理会降低而非提升性能,而针对标注维度设计的提示则能改善性能。我们已在 https://github.com/KathPra/Codebooks2VLMs.git 上发布推文ID、标注标签及代码。

0
下载
关闭预览

相关内容

 【中科院信工所】社交媒体情感分析,40页ppt
专知会员服务
104+阅读 · 2019年12月13日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
3+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员