Synthesizing coherent soundtracks for long-form videos remains a formidable challenge, currently stalled by three critical impediments: computational scalability, temporal coherence, and, most critically, a pervasive semantic blindness to evolving narrative logic. To bridge these gaps, we propose NarraScore, a hierarchical framework predicated on the core insight that emotion serves as a high-density compression of narrative logic. Uniquely, we repurpose frozen Vision-Language Models (VLMs) as continuous affective sensors, distilling high-dimensional visual streams into dense, narrative-aware Valence-Arousal trajectories. Mechanistically, NarraScore employs a Dual-Branch Injection strategy to reconcile global structure with local dynamism: a \textit{Global Semantic Anchor} ensures stylistic stability, while a surgical \textit{Token-Level Affective Adapter} modulates local tension via direct element-wise residual injection. This minimalist design bypasses the bottlenecks of dense attention and architectural cloning, effectively mitigating the overfitting risks associated with data scarcity. Experiments demonstrate that NarraScore achieves state-of-the-art consistency and narrative alignment with negligible computational overhead, establishing a fully autonomous paradigm for long-video soundtrack generation.


翻译:为长视频合成连贯配乐仍是一项艰巨挑战,目前受限于三个关键障碍:计算可扩展性、时间连贯性,以及最为关键的、对演进叙事逻辑普遍存在的语义盲区。为弥合这些差距,我们提出叙事评分(NarraScore),一个基于“情感可作为叙事逻辑的高密度压缩”这一核心见解的分层框架。我们独特地重新利用冻结的视觉-语言模型(VLMs)作为连续情感传感器,将高维视觉流提炼为稠密且具有叙事意识的效价-唤醒轨迹。在机制上,叙事评分采用双分支注入策略来协调全局结构与局部动态:一个\textit{全局语义锚}确保风格稳定性,而一个精细的\textit{令牌级情感适配器}通过直接逐元素残差注入来调节局部张力。这种极简设计绕过了密集注意力和架构克隆的瓶颈,有效缓解了与数据稀缺相关的过拟合风险。实验表明,叙事评分以可忽略的计算开销实现了最先进的一致性和叙事对齐,为长视频配乐生成建立了一个完全自主的范式。

0
下载
关闭预览

相关内容

文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
【CVPR2024】叙事行为评估:基于提示的多模态交互
专知会员服务
20+阅读 · 2024年4月24日
用Attention玩转CV,一文总览自注意力语义分割进展
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
【推荐系统】融合 MF 和 RNN 的电影推荐系统
产业智能官
23+阅读 · 2018年1月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
【CVPR2024】叙事行为评估:基于提示的多模态交互
专知会员服务
20+阅读 · 2024年4月24日
相关资讯
用Attention玩转CV,一文总览自注意力语义分割进展
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
【推荐系统】融合 MF 和 RNN 的电影推荐系统
产业智能官
23+阅读 · 2018年1月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员