Simple 3D Pose Features Support Human and Machine Social Scene Understanding - 专知论文

会员服务 ·

0

社交 · 视频 · 识别 · 交互 · 三维特征 ·

Simple 3D Pose Features Support Human and Machine Social Scene Understanding

翻译：简单的三维姿态特征支持人类与机器对社交场景的理解

Wenshuo Qin,Leyla Isik

from arxiv, 28 pages, 6 figures

Humans effortlessly recognize social interactions from visual input, yet the underlying computations remain unknown, and social interaction recognition challenges even the most advanced deep neural networks (DNNs). Here, we hypothesized that humans rely on 3D visuospatial pose information to make social judgments, and that this information is largely absent from most vision DNNs. To test these hypotheses, we used a novel pose and depth estimation pipeline to automatically extract 3D body joint positions from short video clips. We compared the ability of these body joints to predict human social judgments in the videos with embeddings from over 350 vision DNNs. We found that body joints predicted social judgments better than most DNNs. We then reduced the 3D body joints to an even more compact feature set describing only the 3D position and direction of people in the videos. We found that this minimal 3D feature set, but not its 2D counterpart, was necessary and sufficient to explain the prediction performance of the full set of body joints. These minimal 3D features also predicted the extent to which DNNs aligned with human social judgments and significantly improved their performance on these tasks. Together, these findings demonstrate that human social perception depends on simple, explicit 3D pose information.

翻译：人类能够毫不费力地从视觉输入中识别社交互动，然而其背后的计算机制仍不明确，社交互动识别甚至对最先进的深度神经网络（DNNs）也构成挑战。本文假设，人类依赖三维视觉空间姿态信息进行社交判断，而这一信息在大多数视觉DNNs中基本缺失。为验证这些假设，我们采用一种新颖的姿态与深度估计流程，从短视频片段中自动提取三维人体关节位置。我们比较了这些人体关节与超过350个视觉DNNs的嵌入向量在预测视频中人类社交判断方面的能力。研究发现，人体关节在预测社交判断方面优于大多数DNNs。随后，我们将三维人体关节进一步简化为一个更紧凑的特征集，仅描述视频中人物的三维位置与朝向。结果表明，这一极简的三维特征集（而非其二维对应版本）是解释完整人体关节集合预测性能的必要且充分条件。这些极简三维特征还能预测DNNs与人类社交判断的对齐程度，并显著提升其在此类任务上的性能。综上所述，这些发现证明人类社交感知依赖于简单、明确的三维姿态信息。

0

相关内容

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

72+阅读 · 2023年6月25日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

《人工智能之人机交互》报告重磅发布，展示AI+人机交互的酷炫现状与未来

《人工智能之人机交互》报告重磅发布，展示AI+人机交互的酷炫现状与未来

专知会员服务

52+阅读 · 2022年4月30日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

专知会员服务

30+阅读 · 2022年3月8日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

【IJCAI2020】可解释人工智能最新进展，74页ppt，上海交大张拳石老师

【IJCAI2020】可解释人工智能最新进展，74页ppt，上海交大张拳石老师

专知会员服务

106+阅读 · 2021年1月8日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知会员服务

159+阅读 · 2020年5月2日

【WF-IoT-普渡大学】低功耗深度学习和计算机视觉方法综述

专知会员服务

46+阅读 · 2020年3月26日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

如何建模动态图？看这个《时序图神经网络》视频讲解，26页ppt

如何建模动态图？看这个《时序图神经网络》视频讲解，26页ppt

专知

22+阅读 · 2020年7月25日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

计算机视觉方向简介 | 人体姿态估计

计算机视觉方向简介 | 人体姿态估计

计算机视觉life

28+阅读 · 2019年6月6日

计算机视觉方向简介 | 人脸表情识别

计算机视觉方向简介 | 人脸表情识别

计算机视觉life

36+阅读 · 2019年5月15日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

基于RGB-D数据的个性化手势交互技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

三维空间中基于图结构的人体姿态估计算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

Arxiv

0+阅读 · 3月1日

Human-level 3D shape perception emerges from multi-view learning

Arxiv

0+阅读 · 2月19日

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Arxiv

0+阅读 · 2月19日

Fine-Pruning: A Biologically Inspired Algorithm for Personalization of Machine Learning Models

Arxiv

0+阅读 · 2月18日

Low-Pass Filtering Improves Behavioral Alignment of Vision Models

Arxiv

0+阅读 · 2月14日

Human-Like Gaze Behavior in Social Robots: A Deep Learning Approach Integrating Human and Non-Human Stimuli

Arxiv

0+阅读 · 2月12日

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Arxiv

0+阅读 · 2月6日

Informing Robot Wellbeing Coach Design through Longitudinal Analysis of Human-AI Dialogue

Arxiv

0+阅读 · 2月4日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

9+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

3+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

7+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

4+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

10+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

19+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

11+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

相关VIP内容

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

72+阅读 · 2023年6月25日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

《人工智能之人机交互》报告重磅发布，展示AI+人机交互的酷炫现状与未来

《人工智能之人机交互》报告重磅发布，展示AI+人机交互的酷炫现状与未来

专知会员服务

52+阅读 · 2022年4月30日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

专知会员服务

30+阅读 · 2022年3月8日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

【IJCAI2020】可解释人工智能最新进展，74页ppt，上海交大张拳石老师

【IJCAI2020】可解释人工智能最新进展，74页ppt，上海交大张拳石老师

专知会员服务

106+阅读 · 2021年1月8日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知会员服务

159+阅读 · 2020年5月2日

【WF-IoT-普渡大学】低功耗深度学习和计算机视觉方法综述

专知会员服务

46+阅读 · 2020年3月26日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能在全球军事与武器工业中的应用、方法论与影响》

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

如何建模动态图？看这个《时序图神经网络》视频讲解，26页ppt

如何建模动态图？看这个《时序图神经网络》视频讲解，26页ppt

专知

22+阅读 · 2020年7月25日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

计算机视觉方向简介 | 人体姿态估计

计算机视觉方向简介 | 人体姿态估计

计算机视觉life

28+阅读 · 2019年6月6日

计算机视觉方向简介 | 人脸表情识别

计算机视觉方向简介 | 人脸表情识别

计算机视觉life

36+阅读 · 2019年5月15日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

相关论文

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

Arxiv

0+阅读 · 3月1日

Human-level 3D shape perception emerges from multi-view learning

Arxiv

0+阅读 · 2月19日

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Arxiv

0+阅读 · 2月19日

Fine-Pruning: A Biologically Inspired Algorithm for Personalization of Machine Learning Models

Arxiv

0+阅读 · 2月18日

Low-Pass Filtering Improves Behavioral Alignment of Vision Models

Arxiv

0+阅读 · 2月14日

Human-Like Gaze Behavior in Social Robots: A Deep Learning Approach Integrating Human and Non-Human Stimuli

Arxiv

0+阅读 · 2月12日

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Arxiv

0+阅读 · 2月6日

Informing Robot Wellbeing Coach Design through Longitudinal Analysis of Human-AI Dialogue

Arxiv

0+阅读 · 2月4日

Open-Vocabulary Functional 3D Human-Scene Interaction Generation

Arxiv

0+阅读 · 1月30日

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月30日

相关基金

基于RGB-D数据的个性化手势交互技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

三维空间中基于图结构的人体姿态估计算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员