CURVE: A Benchmark for Cultural and Multilingual Long Video Reasoning - 专知论文

会员服务 ·

0

视频 · 基准 · 视频推理 · 包含 · 构建 ·

CURVE: A Benchmark for Cultural and Multilingual Long Video Reasoning

翻译：CURVE：文化与多语言长视频推理基准

Darshan Singh,Arsha Nagrani,Kawshik Manikantan,Harman Singh,Dinesh Tewari,Tobias Weyand,Cordelia Schmid,Anelia Angelova,Shachi Dave

Recent advancements in video models have shown tremendous progress, particularly in long video understanding. However, current benchmarks predominantly feature western-centric data and English as the dominant language, introducing significant biases in evaluation. To address this, we introduce CURVE (Cultural Understanding and Reasoning in Video Evaluation), a challenging benchmark for multicultural and multilingual video reasoning. CURVE comprises high-quality, entirely human-generated annotations from diverse, region-specific cultural videos across 18 global locales. Unlike prior work that relies on automatic translations, CURVE provides complex questions, answers, and multi-step reasoning steps, all crafted in native languages. Making progress on CURVE requires a deeply situated understanding of visual cultural context. Furthermore, we leverage CURVE's reasoning traces to construct evidence-based graphs and propose a novel iterative strategy using these graphs to identify fine-grained errors in reasoning. Our evaluations reveal that SoTA Video-LLMs struggle significantly, performing substantially below human-level accuracy, with errors primarily stemming from the visual perception of cultural elements. CURVE will be publicly available under https://github.com/google-deepmind/neptune?tab=readme-ov-file\#minerva-cultural

翻译：近期视频模型取得了显著进展，尤其在长视频理解方面。然而，现有基准数据集主要包含以西方为中心的数据且以英语为主导语言，导致评估存在显著偏差。为此，我们提出了CURVE（视频评估中的文化理解与推理基准），这是一个面向多元文化与多语言视频推理的挑战性基准。CURVE包含来自全球18个地区多样化本土文化视频的高质量、完全人工生成的标注。与以往依赖自动翻译的研究不同，CURVE提供了以原生语言精心构建的复杂问题、答案及多步推理过程。要在CURVE上取得进展，需要对视觉文化背景进行深度情境化理解。此外，我们利用CURVE的推理轨迹构建了基于证据的图结构，并提出一种新颖的迭代策略，通过该图识别推理过程中的细粒度错误。评估结果表明，当前最先进的视频大语言模型表现严重不足，其准确率远低于人类水平，错误主要源于对文化元素的视觉感知不足。CURVE将通过https://github.com/google-deepmind/neptune?tab=readme-ov-file#minerva-cultural 公开提供。

0

相关内容

视频

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

37+阅读 · 3月14日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

Video-LMM后训练：多模态大模型的视频推理深度解析

Video-LMM后训练：多模态大模型的视频推理深度解析

专知会员服务

16+阅读 · 2025年10月7日

多模态推理的基础、方法与未来前沿

多模态推理的基础、方法与未来前沿

专知会员服务

27+阅读 · 2025年7月6日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

【CVPR2025】重新思考长时视频理解中的时序检索

【CVPR2025】重新思考长时视频理解中的时序检索

专知会员服务

13+阅读 · 2025年4月6日

视频大模型中视觉上下文表示的scaling law

视频大模型中视觉上下文表示的scaling law

专知会员服务

24+阅读 · 2024年10月21日

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

专知会员服务

30+阅读 · 2024年10月2日

基础模型视频理解综述

基础模型视频理解综述

专知会员服务

32+阅读 · 2024年5月8日

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

专知会员服务

10+阅读 · 2020年1月16日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

【清华大学】元知识图谱推理

【清华大学】元知识图谱推理

专知

129+阅读 · 2019年9月2日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

新智元

12+阅读 · 2017年8月3日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自媒体处理中的极坐标下的非线性理论及超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于多传感器数据融合的超精密复杂曲面几何误差评定理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于ROC曲线分析理论的矿产预测与效果评价的通用效益-代价模型研究及应用示范

国家自然科学基金

0+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

Arxiv

0+阅读 · 2月19日

ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

Arxiv

0+阅读 · 2月18日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 2月6日

LoVR: A Benchmark for Long Video Retrieval in Multimodal Contexts

Arxiv

0+阅读 · 2月4日

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

Arxiv

0+阅读 · 2月3日

LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization

Arxiv

0+阅读 · 2月2日

Video-o3: Native Interleaved Clue Seeking for Long Video Multi-Hop Reasoning

Arxiv

0+阅读 · 1月30日

CURVE: Learning Causality-Inspired Invariant Representations for Robust Scene Understanding via Uncertainty-Guided Regularization

Arxiv

0+阅读 · 1月28日

FOL-Traces: Verified First-Order Logic Reasoning Traces at Scale

Arxiv

0+阅读 · 1月25日

Video-MSR: Benchmarking Multi-hop Spatial Reasoning Capabilities of MLLMs

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

6+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

3+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

5+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

19+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

37+阅读 · 3月14日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

Video-LMM后训练：多模态大模型的视频推理深度解析

Video-LMM后训练：多模态大模型的视频推理深度解析

专知会员服务

16+阅读 · 2025年10月7日

多模态推理的基础、方法与未来前沿

多模态推理的基础、方法与未来前沿

专知会员服务

27+阅读 · 2025年7月6日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

【CVPR2025】重新思考长时视频理解中的时序检索

【CVPR2025】重新思考长时视频理解中的时序检索

专知会员服务

13+阅读 · 2025年4月6日

视频大模型中视觉上下文表示的scaling law

视频大模型中视觉上下文表示的scaling law

专知会员服务

24+阅读 · 2024年10月21日

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

专知会员服务

30+阅读 · 2024年10月2日

基础模型视频理解综述

基础模型视频理解综述

专知会员服务

32+阅读 · 2024年5月8日

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

专知会员服务

10+阅读 · 2020年1月16日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

【清华大学】元知识图谱推理

【清华大学】元知识图谱推理

专知

129+阅读 · 2019年9月2日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

新智元

12+阅读 · 2017年8月3日

相关论文

GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

Arxiv

0+阅读 · 2月19日

ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

Arxiv

0+阅读 · 2月18日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 2月6日

LoVR: A Benchmark for Long Video Retrieval in Multimodal Contexts

Arxiv

0+阅读 · 2月4日

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

Arxiv

0+阅读 · 2月3日

LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization

Arxiv

0+阅读 · 2月2日

Video-o3: Native Interleaved Clue Seeking for Long Video Multi-Hop Reasoning

Arxiv

0+阅读 · 1月30日

CURVE: Learning Causality-Inspired Invariant Representations for Robust Scene Understanding via Uncertainty-Guided Regularization

Arxiv

0+阅读 · 1月28日

FOL-Traces: Verified First-Order Logic Reasoning Traces at Scale

Arxiv

0+阅读 · 1月25日

Video-MSR: Benchmarking Multi-hop Spatial Reasoning Capabilities of MLLMs

Arxiv

0+阅读 · 1月14日

相关基金

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自媒体处理中的极坐标下的非线性理论及超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于多传感器数据融合的超精密复杂曲面几何误差评定理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于ROC曲线分析理论的矿产预测与效果评价的通用效益-代价模型研究及应用示范

国家自然科学基金

0+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员