Before Smelling the Video: A Two-Stage Pipeline for Interpretable Video-to-Scent Plans - 专知论文

会员服务 ·

0

视频 · 系统 · 一致 · 语言模型 · 交互 ·

Before Smelling the Video: A Two-Stage Pipeline for Interpretable Video-to-Scent Plans

翻译：在嗅到视频之前：用于可解释视频到气味规划的两阶段流程

Kaicheng Wang,Kevin Zhongyang Shao,Ruiqi Chen,Sep Makhsous,Denise Wilson

from arxiv, In submission of poster as ongoing project

Olfactory cues can enhance immersion in interactive media, yet smell remains rare because it is difficult to author and synchronize with dynamic video. Prior olfactory interfaces rely on designer triggers and fixed event-to-odor mappings that do not scale to unconstrained content. This work examines whether semantic planning for smell is intelligible to people before physical scent delivery. We present a video-to-scent planning pipeline that separates visual semantic extraction using a vision-language model from semantic-to-olfactory inference using a large language model. Two survey studies compare system-generated scent plans with over-inclusive and naive baselines. Results show consistent preference for plans that prioritize perceptually salient cues and align scent changes with visible actions, supporting semantic planning as a foundation for future olfactory media systems.

翻译：嗅觉线索能够增强交互式媒体的沉浸感，但气味应用仍然罕见，这主要是因为难以创作并与动态视频同步。现有的嗅觉界面依赖于设计者预设的触发器和固定的事件-气味映射，难以适应无约束的内容。本研究探讨了在物理气味释放之前，气味语义规划对人类是否具有可理解性。我们提出了一种视频到气味的规划流程，该流程将使用视觉-语言模型进行的视觉语义提取与使用大语言模型进行的语义到嗅觉推理分离开来。两项调查研究将系统生成的气味规划方案与过度包容和朴素的基线方案进行了比较。结果表明，人们一致倾向于优先考虑感知显著线索、并使气味变化与可见动作保持一致的规划方案，这支持了将语义规划作为未来嗅觉媒体系统的基础。

0

相关内容

视频

综述：机器嗅觉与嵌入式人工智能正在塑造新的全球传感产业

综述：机器嗅觉与嵌入式人工智能正在塑造新的全球传感产业

专知会员服务

19+阅读 · 2025年10月26日

【斯坦福博士论文】从互联网视频中学习感知物理世界

【斯坦福博士论文】从互联网视频中学习感知物理世界

专知会员服务

23+阅读 · 2024年12月30日

视频语言如何建模？NUS最新《视频-语言理解：从模型架构、模型训练和数据角度》综述

视频语言如何建模？NUS最新《视频-语言理解：从模型架构、模型训练和数据角度》综述

专知会员服务

31+阅读 · 2024年6月11日

【斯坦福博士论文】视频和语言中的高效事件理解，129页pdf

【斯坦福博士论文】视频和语言中的高效事件理解，129页pdf

专知会员服务

30+阅读 · 2023年7月21日

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

专知会员服务

49+阅读 · 2023年2月13日

【CVPR2022教程】微软《视觉语言预训练进展》教程，400+页ppt

【CVPR2022教程】微软《视觉语言预训练进展》教程，400+页ppt

专知会员服务

86+阅读 · 2022年6月23日

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

专知会员服务

15+阅读 · 2022年3月19日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

专知会员服务

41+阅读 · 2019年12月15日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【CVPR Oral】视频跟踪新思路，完全无需手工标注

【CVPR Oral】视频跟踪新思路，完全无需手工标注

新智元

19+阅读 · 2019年4月21日

视频大脑：视频内容理解的技术与应用

视频大脑：视频内容理解的技术与应用

AI前线

13+阅读 · 2019年4月18日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

50+阅读 · 2018年12月1日

从场景到调参，爱奇艺的推荐算法演化之路

从场景到调参，爱奇艺的推荐算法演化之路

聊聊架构

10+阅读 · 2018年3月23日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

简便快速的样品前处理方法结合全二维气相色谱-质谱法用于土壤中多环芳烃的分析检测

国家自然科学基金

0+阅读 · 2015年12月31日

‘蜜脆’×‘秦冠’苹果 F1 代果实香气物质的遗传分析与 QTL 定位

国家自然科学基金

0+阅读 · 2015年12月31日

基于移动平台的视频信息隐藏关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

融合稀疏层次模型的内容辨识研究

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

刺梨中键合态香气物质的释放、活性评价及其前体体内合成-释放机制

国家自然科学基金

0+阅读 · 2014年12月31日

花果类天然产物特征香气组成与香韵结构的相互协同作用机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

A Code Smell Refactoring Approach using GNNs

Arxiv

0+阅读 · 2月17日

ViTaS: Visual Tactile Soft Fusion Contrastive Learning for Visuomotor Learning

Arxiv

0+阅读 · 2月12日

Paint by Odor: An Exploration of Odor Visualization through Large Language Model and Generative AI

Arxiv

0+阅读 · 2月4日

Smell with Genji: Rediscovering Human Perception through an Olfactory Game with AI

Arxiv

0+阅读 · 2月2日

Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities

Arxiv

0+阅读 · 2月1日

VividVoice: A Unified Framework for Scene-Aware Visually-Driven Speech Synthesis

Arxiv

0+阅读 · 2月1日

Sound2Hap: Learning Audio-to-Vibrotactile Haptic Generation from Human Ratings

Arxiv

0+阅读 · 1月26日

Deconstructing Taste: Toward a Human-Centered AI Framework for Modeling Consumer Aesthetic Perceptions

Arxiv

0+阅读 · 1月23日

Sound2Hap: Learning Audio-to-Vibrotactile Haptic Generation from Human Ratings

Arxiv

0+阅读 · 1月21日

Sound2Hap: Learning Audio-to-Vibrotactile Haptic Generation from Human Ratings

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

最新内容

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

0+阅读 · 5分钟前

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

0+阅读 · 10分钟前

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

2+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

4+阅读 · 4月22日

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

8+阅读 · 4月22日

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

6+阅读 · 4月22日

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

9+阅读 · 4月22日

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

6+阅读 · 4月22日

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

4+阅读 · 4月22日

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

5+阅读 · 4月22日

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

2+阅读 · 4月22日

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

5+阅读 · 4月22日

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

9+阅读 · 4月22日

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

8+阅读 · 4月22日

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

5+阅读 · 4月22日

相关VIP内容

综述：机器嗅觉与嵌入式人工智能正在塑造新的全球传感产业

综述：机器嗅觉与嵌入式人工智能正在塑造新的全球传感产业

专知会员服务

19+阅读 · 2025年10月26日

【斯坦福博士论文】从互联网视频中学习感知物理世界

【斯坦福博士论文】从互联网视频中学习感知物理世界

专知会员服务

23+阅读 · 2024年12月30日

视频语言如何建模？NUS最新《视频-语言理解：从模型架构、模型训练和数据角度》综述

视频语言如何建模？NUS最新《视频-语言理解：从模型架构、模型训练和数据角度》综述

专知会员服务

31+阅读 · 2024年6月11日

【斯坦福博士论文】视频和语言中的高效事件理解，129页pdf

【斯坦福博士论文】视频和语言中的高效事件理解，129页pdf

专知会员服务

30+阅读 · 2023年7月21日

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

推荐如何用多模态信息？南洋理工最新《多模态推荐系统》综述，33页pdf阐述多模态推荐系统的分类、评价和未来方向

专知会员服务

49+阅读 · 2023年2月13日

【CVPR2022教程】微软《视觉语言预训练进展》教程，400+页ppt

【CVPR2022教程】微软《视觉语言预训练进展》教程，400+页ppt

专知会员服务

86+阅读 · 2022年6月23日

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

专知会员服务

15+阅读 · 2022年3月19日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

专知会员服务

41+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体系统：从经典范式到大基础模型驱动的未来

电子战革命：塑造战场的十年突破（2015–2025）

【CMU博士论文】物理世界的视觉感知与深度理解

伊朗战争停火期间美军关键弹药状况分析

相关资讯

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【CVPR Oral】视频跟踪新思路，完全无需手工标注

【CVPR Oral】视频跟踪新思路，完全无需手工标注

新智元

19+阅读 · 2019年4月21日

视频大脑：视频内容理解的技术与应用

视频大脑：视频内容理解的技术与应用

AI前线

13+阅读 · 2019年4月18日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

50+阅读 · 2018年12月1日

从场景到调参，爱奇艺的推荐算法演化之路

从场景到调参，爱奇艺的推荐算法演化之路

聊聊架构

10+阅读 · 2018年3月23日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

A Code Smell Refactoring Approach using GNNs

Arxiv

0+阅读 · 2月17日

ViTaS: Visual Tactile Soft Fusion Contrastive Learning for Visuomotor Learning

Arxiv

0+阅读 · 2月12日

Paint by Odor: An Exploration of Odor Visualization through Large Language Model and Generative AI

Arxiv

0+阅读 · 2月4日

Smell with Genji: Rediscovering Human Perception through an Olfactory Game with AI

Arxiv

0+阅读 · 2月2日

Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities

Arxiv

0+阅读 · 2月1日

VividVoice: A Unified Framework for Scene-Aware Visually-Driven Speech Synthesis

Arxiv

0+阅读 · 2月1日

Sound2Hap: Learning Audio-to-Vibrotactile Haptic Generation from Human Ratings

Arxiv

0+阅读 · 1月26日

Deconstructing Taste: Toward a Human-Centered AI Framework for Modeling Consumer Aesthetic Perceptions

Arxiv

0+阅读 · 1月23日

Sound2Hap: Learning Audio-to-Vibrotactile Haptic Generation from Human Ratings

Arxiv

0+阅读 · 1月21日

Sound2Hap: Learning Audio-to-Vibrotactile Haptic Generation from Human Ratings

Arxiv

0+阅读 · 1月18日

相关基金

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

简便快速的样品前处理方法结合全二维气相色谱-质谱法用于土壤中多环芳烃的分析检测

国家自然科学基金

0+阅读 · 2015年12月31日

‘蜜脆’×‘秦冠’苹果 F1 代果实香气物质的遗传分析与 QTL 定位

国家自然科学基金

0+阅读 · 2015年12月31日

基于移动平台的视频信息隐藏关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

融合稀疏层次模型的内容辨识研究

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

刺梨中键合态香气物质的释放、活性评价及其前体体内合成-释放机制

国家自然科学基金

0+阅读 · 2014年12月31日

花果类天然产物特征香气组成与香韵结构的相互协同作用机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员