Popcorn: A Configurable Benchmark for Visual Evidence in Multimodal Movie Recommendation - 专知论文

会员服务 ·

0

多峰值 · 全 · 稀疏 · 讲稿 · MoDELS ·

Popcorn: A Configurable Benchmark for Visual Evidence in Multimodal Movie Recommendation

翻译：Popcorn：多模态电影推荐中视觉证据的可配置基准

Ali Tourani,Fatemeh Nazary,Yashar Deldjoo,Tommaso Di Noia

from arxiv, 8 pages, 3 figures, 3 tables

Movies are long-form audiovisual works, yet recommender benchmarks often rely on trailers, thumbnails, or metadata. These sources differ in semantics and scalability: full movies preserve consumption-level evidence, trailers concentrate promotional highlights, and thumbnails provide sparse but catalog-scale visual signals. We present Popcorn, a configurable benchmark for visual evidence in multimodal movie recommendation, combining title-aligned full-movie/trailer embeddings with MovieLens-linked thumbnail features encoded by modern visual and vision-language models. Popcorn standardizes modality assembly, fusion, splitting, evaluation, and LLM-augmented metadata through a single configuration contract. Experiments show that thumbnail VLMs provide strong, scalable item-side evidence, while controlled trailer/full-movie comparisons show that visual evidence sources are not interchangeable: the choice of source and fusion strategy affects ranking accuracy, coverage, diversity, and calibration. The framework is available at https://github.com/RecSys-lab/Popcorn.

翻译：电影属于长篇幅视听作品，但推荐基准测试常依赖预告片、缩略图或元数据。这些源在语义和可扩展性上存在差异：完整电影保留消费级证据，预告片聚焦推广亮点，而缩略图虽稀疏但可提供目录级视觉信号。我们提出Popcorn——一个用于多模态电影推荐中视觉证据的可配置基准，将标题对齐的完整电影/预告片嵌入与由现代视觉和视觉-语言模型编码的MovieLens关联缩略图特征相结合。Popcorn通过单一配置契约标准化了模态组装、融合、分割、评估以及经大语言模型增强的元数据。实验表明，缩略图视觉语言模型提供了强效且可扩展的物证，而受控的预告片/完整电影对比显示视觉证据源不可互换：源与融合策略的选择会影响排序正确率、覆盖率、多样性与校准性。该框架已开源至https://github.com/RecSys-lab/Popcorn。

0

相关内容

多峰值

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

多智能体视频推荐系统：演进历程、范式模式与开放性挑战

多智能体视频推荐系统：演进历程、范式模式与开放性挑战

专知会员服务

14+阅读 · 4月4日

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

专知会员服务

5+阅读 · 2月20日

【NeurIPS 2025】稳定电影度量：面向专业视频生成的结构化分类与评测体系

【NeurIPS 2025】稳定电影度量：面向专业视频生成的结构化分类与评测体系

专知会员服务

7+阅读 · 2025年10月6日

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

【AAAI2025】ViPCap: 基于检索的文本视觉提示用于轻量级图像描述

【AAAI2025】ViPCap: 基于检索的文本视觉提示用于轻量级图像描述

专知会员服务

12+阅读 · 2025年1月2日

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

专知会员服务

49+阅读 · 2023年2月13日

【CIKM2020-北大】Set-Sequence-Graph:一种利用评论来获取推荐的多视图方法

专知会员服务

21+阅读 · 2020年9月22日

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

专知会员服务

57+阅读 · 2019年11月20日

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

数据就是杀手锏！优酷多端多场景下的视频推荐系统探索之路

数据就是杀手锏！优酷多端多场景下的视频推荐系统探索之路

AI前线

10+阅读 · 2019年4月28日

推荐系统概述

推荐系统概述

Linux爱好者

20+阅读 · 2018年9月6日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

从场景到调参，爱奇艺的推荐算法演化之路

从场景到调参，爱奇艺的推荐算法演化之路

聊聊架构

10+阅读 · 2018年3月23日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

SCENE-一个可扩展两层级新闻推荐系统

SCENE-一个可扩展两层级新闻推荐系统

全球人工智能

11+阅读 · 2018年1月7日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

基于视频数据的消费者偏好测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于张量学习的多源异质多视角视频显著性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

社交网络级联数据流异常检测模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

PAL-Bench: Evidence-Grounded Profile Reconstruction from Longitudinal Personal Albums

Arxiv

0+阅读 · 6月15日

EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge

Arxiv

0+阅读 · 6月11日

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Arxiv

0+阅读 · 6月11日

MPCoT: Reward-Guided Multi-Path Latent Reasoning for Test-Time Scalable Vision-Language-Action

Arxiv

0+阅读 · 6月4日

PaintBench: Deterministic Evaluation of Precise Visual Editing

Arxiv

0+阅读 · 5月29日

FinDocMRE: A Benchmark for Document-Level Financial Multimodal Reasoning Evaluation

Arxiv

0+阅读 · 5月18日

JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation

Arxiv

0+阅读 · 5月14日

PROVE: A Perceptual RemOVal cohErence Benchmark for Visual Media

Arxiv

0+阅读 · 5月14日

FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries

Arxiv

0+阅读 · 5月11日

SciVQR: A Multidisciplinary Multimodal Benchmark for Advanced Scientific Reasoning Evaluation

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

1+阅读 · 今天16:54

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

1+阅读 · 今天16:52

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

[ICML 2026] 看见的还是思考的？用奖励机制区分“看错”与“想错”：视觉语言模型奖励感知

专知会员服务

10+阅读 · 5月15日

多智能体视频推荐系统：演进历程、范式模式与开放性挑战

多智能体视频推荐系统：演进历程、范式模式与开放性挑战

专知会员服务

14+阅读 · 4月4日

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

专知会员服务

5+阅读 · 2月20日

【NeurIPS 2025】稳定电影度量：面向专业视频生成的结构化分类与评测体系

【NeurIPS 2025】稳定电影度量：面向专业视频生成的结构化分类与评测体系

专知会员服务

7+阅读 · 2025年10月6日

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

【AAAI2025】ViPCap: 基于检索的文本视觉提示用于轻量级图像描述

【AAAI2025】ViPCap: 基于检索的文本视觉提示用于轻量级图像描述

专知会员服务

12+阅读 · 2025年1月2日

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

专知会员服务

49+阅读 · 2023年2月13日

【CIKM2020-北大】Set-Sequence-Graph:一种利用评论来获取推荐的多视图方法

专知会员服务

21+阅读 · 2020年9月22日

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

【ACM MM 2019 】MMGCN：用于微视频个性化推荐的多模图卷积网络（MMGCN：Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video）

专知会员服务

57+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

数据就是杀手锏！优酷多端多场景下的视频推荐系统探索之路

数据就是杀手锏！优酷多端多场景下的视频推荐系统探索之路

AI前线

10+阅读 · 2019年4月28日

推荐系统概述

推荐系统概述

Linux爱好者

20+阅读 · 2018年9月6日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

从场景到调参，爱奇艺的推荐算法演化之路

从场景到调参，爱奇艺的推荐算法演化之路

聊聊架构

10+阅读 · 2018年3月23日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

SCENE-一个可扩展两层级新闻推荐系统

SCENE-一个可扩展两层级新闻推荐系统

全球人工智能

11+阅读 · 2018年1月7日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

相关论文

PAL-Bench: Evidence-Grounded Profile Reconstruction from Longitudinal Personal Albums

Arxiv

0+阅读 · 6月15日

EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge

Arxiv

0+阅读 · 6月11日

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Arxiv

0+阅读 · 6月11日

MPCoT: Reward-Guided Multi-Path Latent Reasoning for Test-Time Scalable Vision-Language-Action

Arxiv

0+阅读 · 6月4日

PaintBench: Deterministic Evaluation of Precise Visual Editing

Arxiv

0+阅读 · 5月29日

FinDocMRE: A Benchmark for Document-Level Financial Multimodal Reasoning Evaluation

Arxiv

0+阅读 · 5月18日

JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation

Arxiv

0+阅读 · 5月14日

PROVE: A Perceptual RemOVal cohErence Benchmark for Visual Media

Arxiv

0+阅读 · 5月14日

FLARE: Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries

Arxiv

0+阅读 · 5月11日

SciVQR: A Multidisciplinary Multimodal Benchmark for Advanced Scientific Reasoning Evaluation

Arxiv

0+阅读 · 5月11日

相关基金

基于视频数据的消费者偏好测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于张量学习的多源异质多视角视频显著性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

社交网络级联数据流异常检测模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

基于领域知识和链路预测的个性化推荐研究

国家自然科学基金

4+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员