Incorporating Eye-Tracking Signals Into Multimodal Deep Visual Models For Predicting User Aesthetic Experience In Residential Interiors - 专知论文

会员服务 ·

0

评价 · 融合 · 设计 · 多模 · 模态 ·

Incorporating Eye-Tracking Signals Into Multimodal Deep Visual Models For Predicting User Aesthetic Experience In Residential Interiors

翻译：融合眼动信号的多模态深度视觉模型预测住宅室内环境中的用户审美体验

Chen-Ying Chien,Po-Chih Kuo

Understanding how people perceive and evaluate interior spaces is essential for designing environments that promote well-being. However, predicting aesthetic experiences remains difficult due to the subjective nature of perception and the complexity of visual responses. This study introduces a dual-branch CNN-LSTM framework that fuses visual features with eye-tracking signals to predict aesthetic evaluations of residential interiors. We collected a dataset of 224 interior design videos paired with synchronized gaze data from 28 participants who rated 15 aesthetic dimensions. The proposed model attains 72.2% accuracy on objective dimensions (e.g., light) and 66.8% on subjective dimensions (e.g., relaxation), outperforming state-of-the-art video baselines and showing clear gains on subjective evaluation tasks. Notably, models trained with eye-tracking retain comparable performance when deployed with visual input alone. Ablation experiments further reveal that pupil responses contribute most to objective assessments, while the combination of gaze and visual cues enhances subjective evaluations. These findings highlight the value of incorporating eye-tracking as privileged information during training, enabling more practical tools for aesthetic assessment in interior design.

翻译：理解人们如何感知和评价室内空间对于设计促进福祉的环境至关重要。然而，由于感知的主观性和视觉反应的复杂性，预测审美体验仍然困难。本研究引入了一个双分支CNN-LSTM框架，该框架融合了视觉特征与眼动信号，以预测对住宅室内环境的审美评价。我们收集了一个包含224个室内设计视频的数据集，并配对了来自28名参与者的同步注视数据，这些参与者对15个审美维度进行了评分。所提出的模型在客观维度（如光线）上达到72.2%的准确率，在主观维度（如放松度）上达到66.8%的准确率，优于最先进的视频基线模型，并在主观评价任务上显示出明显的提升。值得注意的是，使用眼动数据训练的模型在仅部署视觉输入时仍能保持相当的性能。消融实验进一步揭示，瞳孔反应对客观评估贡献最大，而注视与视觉线索的结合则增强了主观评价。这些发现凸显了在训练过程中融入眼动信号作为特权信息的价值，从而为室内设计中的审美评估提供了更实用的工具。

0

相关内容

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

【ICML2024】VisionGraph：利用大型多模态模型解决视觉环境中的图论问题

【ICML2024】VisionGraph：利用大型多模态模型解决视觉环境中的图论问题

专知会员服务

27+阅读 · 2024年5月11日

【牛津大学博士论文】多模态深度学习在计算机视觉及其应用，138页pdf

【牛津大学博士论文】多模态深度学习在计算机视觉及其应用，138页pdf

专知会员服务

64+阅读 · 2023年11月7日

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

专知会员服务

75+阅读 · 2023年8月1日

《眼球注视点的空间分布对任务需求类型变化的敏感性及其作为自适应自动化触发器的有效性》美国空军研究实验室2022最新52页论文

《眼球注视点的空间分布对任务需求类型变化的敏感性及其作为自适应自动化触发器的有效性》美国空军研究实验室2022最新52页论文

专知会员服务

14+阅读 · 2022年11月7日

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

专知会员服务

57+阅读 · 2022年3月20日

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

专知会员服务

15+阅读 · 2022年3月19日

【目标跟踪 | 2019最新综述】视觉跟踪器的回顾及其在移动机器人中的应用分析，附25页PDF，174篇参考文献，A Review of Visual Trackers and Analysis of its Application to Mobile Robot

【目标跟踪 | 2019最新综述】视觉跟踪器的回顾及其在移动机器人中的应用分析，附25页PDF，174篇参考文献，A Review of Visual Trackers and Analysis of its Application to Mobile Robot

专知会员服务

26+阅读 · 2019年11月15日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

专知

14+阅读 · 2018年1月22日

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于非参数化动态噪声模型的自适应室内定位算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

室内多目标的被动定位方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

地理学视角下的室内三维场景日照分析模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

Parameter-Free Adaptive Multi-Scale Channel-Spatial Attention Aggregation framework for 3D Indoor Semantic Scene Completion Toward Assisting Visually Impaired

Arxiv

0+阅读 · 2月19日

SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes

Arxiv

0+阅读 · 2月9日

Model Optimization for Multi-Camera 3D Detection and Tracking

Arxiv

0+阅读 · 2月3日

VideoAesBench: Benchmarking the Video Aesthetics Perception Capabilities of Large Multimodal Models

Arxiv

0+阅读 · 1月29日

Virtual Reflections on a Dynamic 2D Eye Model Improve Spatial Reference Identification

Arxiv

0+阅读 · 1月29日

Gaze Prediction in Virtual Reality Without Eye Tracking Using Visual and Head Motion Cues

Arxiv

0+阅读 · 1月26日

Assessing Situational and Spatial Awareness of VLMs with Synthetically Generated Video

Arxiv

0+阅读 · 1月22日

Hyperphantasia: A Benchmark for Evaluating the Mental Visualization Capabilities of Multimodal LLMs

Arxiv

0+阅读 · 1月21日

Active Cross-Modal Visuo-Tactile Perception of Deformable Linear Objects

Arxiv

0+阅读 · 1月20日

Scene-Aware Vectorized Memory Multi-Agent Framework with Cross-Modal Differentiated Quantization VLMs for Visually Impaired Assistance

Arxiv

0+阅读 · 1月17日

VIP会员

文章信息

相关主题

最新内容

马赛克战：俄乌战场透析

马赛克战：俄乌战场透析

专知会员服务

12+阅读 · 今天4:12

《利用人工智能增强军事决策》

《利用人工智能增强军事决策》

专知会员服务

3+阅读 · 今天4:09

《自动机器学习在军事数据耕耘法中的应用》

《自动机器学习在军事数据耕耘法中的应用》

专知会员服务

5+阅读 · 今天4:02

为何指挥所生存能力要求范式转变

为何指挥所生存能力要求范式转变

专知会员服务

3+阅读 · 今天3:54

打造“新蛛网”模式与高科技动员

打造“新蛛网”模式与高科技动员

专知会员服务

3+阅读 · 今天3:33

“蛛网”行动一周年：远程无人机战争

“蛛网”行动一周年：远程无人机战争

专知会员服务

3+阅读 · 今天3:23

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

专知会员服务

3+阅读 · 今天3:15

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

专知会员服务

3+阅读 · 今天3:09

【剑桥博士论文】智能体-环境协同优化

【剑桥博士论文】智能体-环境协同优化

专知会员服务

6+阅读 · 6月9日

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

专知会员服务

4+阅读 · 6月9日

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

专知会员服务

11+阅读 · 6月9日

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

专知会员服务

8+阅读 · 6月9日

为初级军官战术训练设计生成式人工智能平台

为初级军官战术训练设计生成式人工智能平台

专知会员服务

8+阅读 · 6月9日

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

专知会员服务

9+阅读 · 6月9日

《美军条令：作战伤员后送保障》

《美军条令：作战伤员后送保障》

专知会员服务

6+阅读 · 6月9日

相关VIP内容

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

【ICML2024】VisionGraph：利用大型多模态模型解决视觉环境中的图论问题

【ICML2024】VisionGraph：利用大型多模态模型解决视觉环境中的图论问题

专知会员服务

27+阅读 · 2024年5月11日

【牛津大学博士论文】多模态深度学习在计算机视觉及其应用，138页pdf

【牛津大学博士论文】多模态深度学习在计算机视觉及其应用，138页pdf

专知会员服务

64+阅读 · 2023年11月7日

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

MBZ大学等最新《视觉基础模型》综述，详述视觉大模型技术进展

专知会员服务

75+阅读 · 2023年8月1日

《眼球注视点的空间分布对任务需求类型变化的敏感性及其作为自适应自动化触发器的有效性》美国空军研究实验室2022最新52页论文

《眼球注视点的空间分布对任务需求类型变化的敏感性及其作为自适应自动化触发器的有效性》美国空军研究实验室2022最新52页论文

专知会员服务

14+阅读 · 2022年11月7日

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

专知会员服务

57+阅读 · 2022年3月20日

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

【CVPR 2022】MixFormer：跨窗口与维度的特征融合，MixFormer: Mixing Features across Windows and Dimensions

专知会员服务

15+阅读 · 2022年3月19日

【目标跟踪 | 2019最新综述】视觉跟踪器的回顾及其在移动机器人中的应用分析，附25页PDF，174篇参考文献，A Review of Visual Trackers and Analysis of its Application to Mobile Robot

【目标跟踪 | 2019最新综述】视觉跟踪器的回顾及其在移动机器人中的应用分析，附25页PDF，174篇参考文献，A Review of Visual Trackers and Analysis of its Application to Mobile Robot

专知会员服务

26+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《利用人工智能增强军事决策》

为何指挥所生存能力要求范式转变

马赛克战：俄乌战场透析

《自动机器学习在军事数据耕耘法中的应用》

相关资讯

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

专知

14+阅读 · 2018年1月22日

相关论文

Parameter-Free Adaptive Multi-Scale Channel-Spatial Attention Aggregation framework for 3D Indoor Semantic Scene Completion Toward Assisting Visually Impaired

Arxiv

0+阅读 · 2月19日

SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes

Arxiv

0+阅读 · 2月9日

Model Optimization for Multi-Camera 3D Detection and Tracking

Arxiv

0+阅读 · 2月3日

VideoAesBench: Benchmarking the Video Aesthetics Perception Capabilities of Large Multimodal Models

Arxiv

0+阅读 · 1月29日

Virtual Reflections on a Dynamic 2D Eye Model Improve Spatial Reference Identification

Arxiv

0+阅读 · 1月29日

Gaze Prediction in Virtual Reality Without Eye Tracking Using Visual and Head Motion Cues

Arxiv

0+阅读 · 1月26日

Assessing Situational and Spatial Awareness of VLMs with Synthetically Generated Video

Arxiv

0+阅读 · 1月22日

Hyperphantasia: A Benchmark for Evaluating the Mental Visualization Capabilities of Multimodal LLMs

Arxiv

0+阅读 · 1月21日

Active Cross-Modal Visuo-Tactile Perception of Deformable Linear Objects

Arxiv

0+阅读 · 1月20日

Scene-Aware Vectorized Memory Multi-Agent Framework with Cross-Modal Differentiated Quantization VLMs for Visually Impaired Assistance

Arxiv

0+阅读 · 1月17日

相关基金

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于非参数化动态噪声模型的自适应室内定位算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

室内多目标的被动定位方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

地理学视角下的室内三维场景日照分析模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员