The growing volume of video-based news content has heightened the need for transparent and reliable methods to extract on-screen information. Yet the variability of graphical layouts, typographic conventions, and platform-specific design patterns renders manual indexing impractical. This work presents a comprehensive framework for automatically detecting and extracting personal names from broadcast and social-media-native news videos. It introduces a curated and balanced corpus of annotated frames capturing the diversity of contemporary news graphics and proposes an interpretable, modular extraction pipeline designed to operate under deterministic and auditable conditions. The pipeline is evaluated against a contrasting class of generative multimodal methods, revealing a clear trade-off between deterministic auditability and stochastic inference. The underlying detector achieves 95.8% mAP@0.5, demonstrating operationally robust performance for graphical element localisation. While generative systems achieve marginally higher raw accuracy (F1: 84.18% vs 77.08%), they lack the transparent data lineage required for journalistic and analytical contexts. The proposed pipeline delivers balanced precision (79.9%) and recall (74.4%), avoids hallucination, and provides full traceability across each processing stage. Complementary user findings indicate that 59% of respondents report difficulty reading on-screen names in fast-paced broadcasts, underscoring the practical relevance of the task. The results establish a methodologically rigorous and interpretable baseline for hybrid multimodal information extraction in modern news media.


翻译:随着视频新闻内容的日益增长,对透明可靠方法提取屏幕信息的需求愈发迫切。然而,图形布局、排版惯例和平台特定设计模式的多样性使得人工索引变得不切实际。本研究提出了一种综合性框架,用于自动检测和提取来自广播及社交媒体原生新闻视频中的人名。该框架引入了一个经过精心筛选且平衡的标注帧语料库,涵盖了当代新闻图形的多样性,并提出了一种可解释的模块化提取流程,旨在在确定性和可审计条件下运行。该流程与一类对比性的生成式多模态方法进行了评估比较,揭示了确定性可审计性与随机推理之间的明确权衡。基础检测器实现了95.8%的mAP@0.5,表明其在图形元素定位方面具有稳健的操作性能。虽然生成式系统获得了略高的原始准确率(F1分数:84.18% 对比 77.08%),但它们缺乏新闻和分析场景所需的透明数据溯源。所提出的流程实现了平衡的精确率(79.9%)和召回率(74.4%),避免了幻觉生成,并在每个处理阶段提供了完整的可追溯性。补充性用户研究发现,59%的受访者表示在快节奏的广播中难以阅读屏幕上的姓名,这凸显了该任务的实际相关性。研究结果为现代新闻媒体中的混合多模态信息提取建立了一个方法论严谨且可解释的基准。

0
下载
关闭预览

相关内容

新闻,是指报纸、电台、电视台、互联网等媒体经常使用的记录与传播信息的 [2] 一种文体,是反映时代的一种文体。新闻概念有广义与狭义之分。广义上:除了发表于报刊、广播、互联网、电视上的评论与专文外的常用文本都属于新闻,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等; [3] 狭义上:消息是用概括的叙述方式,以较简明扼要的文字,迅速及时地报道附近新近发生的、有价值的事实,使一定人群了解。新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的重要事件。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
混合增强视觉认知架构及其关键技术进展
专知会员服务
46+阅读 · 2021年11月20日
专知会员服务
91+阅读 · 2021年9月4日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
17+阅读 · 2019年1月30日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
命名实体识别从数据集到算法实现
专知
55+阅读 · 2018年6月28日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
VIP会员
相关VIP内容
混合增强视觉认知架构及其关键技术进展
专知会员服务
46+阅读 · 2021年11月20日
专知会员服务
91+阅读 · 2021年9月4日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
相关资讯
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
17+阅读 · 2019年1月30日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
命名实体识别从数据集到算法实现
专知
55+阅读 · 2018年6月28日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员