News videos are among the most prevalent content types produced by television stations and online streaming platforms, yet generating textual descriptions to facilitate indexing and retrieval largely remains a manual process. Video Large Language Models (VidLLMs) offer significant potential to automate this task, but a comprehensive evaluation in the news domain is still lacking. This work presents a comparative study of eight state-of-the-art open-source VidLLMs for automatic news video captioning, evaluated on two complementary benchmark datasets: a Chilean TV news corpus (approximately 1,345 clips) and a BBC News corpus (9,838 clips). We employ lexical metrics (METEOR, ROUGE-L), semantic metrics (BERTScore, CLIPScore, Text Similarity, Mean Reciprocal Rank), and two novel fidelity metrics proposed in this work: the Thematic Fidelity Score (TFS) and Entity Fidelity Score (EFS). Our analysis reveals that standard metrics exhibit limited discriminative power for news video captioning due to surface-form dependence, static-frame insensitivity, and function-word inflation. TFS and EFS address these gaps by directly assessing thematic structure preservation and named-entity coverage in the generated captions. Results show that Gemma~3 achieves the highest overall performance across both datasets and most evaluation dimensions, with Qwen-VL as a consistent runner-up.


翻译:新闻视频是电视台和在线流媒体平台制作的最常见内容类型之一,然而生成文本描述以促进索引和检索在很大程度上仍依赖人工操作。视频大语言模型(VidLLMs)在自动化完成这一任务方面具有巨大潜力,但目前尚缺乏针对新闻领域的全面评估。本研究对八种最先进的开源视频大语言模型在自动新闻视频字幕生成任务上进行了比较研究,并在两个互补的基准数据集上进行了评估:智利电视新闻语料库(约1345个片段)和BBC新闻语料库(9838个片段)。我们采用了词汇评估指标(METEOR、ROUGE-L)、语义评估指标(BERTScore、CLIPScore、文本相似度、平均倒数排名)以及本文提出的两种新型保真度指标:主题保真度评分(TFS)和实体保真度评分(EFS)。分析表明,由于标准指标存在对表面形式依赖性强、对静态帧不敏感以及功能词膨胀等问题,其在新闻视频字幕生成领域的区分能力有限。TFS和EFS通过直接评估生成字幕中主题结构保留程度和命名实体覆盖率来弥补这些不足。结果表明,Gemma~3在两个数据集及大多数评估维度上均取得了最佳综合表现,Qwen-VL则持续位居第二。

0
下载
关闭预览

相关内容

扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
14+阅读 · 4月15日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
《大型语言模型自然语言生成评估》综述
专知会员服务
72+阅读 · 2024年1月20日
《大型语言模型视频理解》综述
专知会员服务
59+阅读 · 2024年1月2日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
25+阅读 · 2023年6月23日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
0+阅读 · 13分钟前
21世纪的无人机战争
专知会员服务
1+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员