多感官智能愿景：感知、科学与协同 (A Vision for Multisensory Intelligence: Sensing, Science, and Synergy) - 专知论文

会员服务 ·

0

协同 · 模态 · 麻省理工学院 · 人工智能 · 生理 ·

A Vision for Multisensory Intelligence: Sensing, Science, and Synergy

翻译：多感官智能愿景：感知、科学与协同

Our experience of the world is multisensory, spanning a synthesis of language, sight, sound, touch, taste, and smell. Yet, artificial intelligence has primarily advanced in digital modalities like text, vision, and audio. This paper outlines a research vision for multisensory artificial intelligence over the next decade. This new set of technologies can change how humans and AI experience and interact with one another, by connecting AI to the human senses and a rich spectrum of signals from physiological and tactile cues on the body, to physical and social signals in homes, cities, and the environment. We outline how this field must advance through three interrelated themes of sensing, science, and synergy. Firstly, research in sensing should extend how AI captures the world in richer ways beyond the digital medium. Secondly, developing a principled science for quantifying multimodal heterogeneity and interactions, developing unified modeling architectures and representations, and understanding cross-modal transfer. Finally, we present new technical challenges to learn synergy between modalities and between humans and AI, covering multisensory integration, alignment, reasoning, generation, generalization, and experience. Accompanying this vision paper are a series of projects, resources, and demos of latest advances from the Multisensory Intelligence group at the MIT Media Lab, see https://mit-mi.github.io/.

翻译：我们对世界的体验是多感官的，涵盖语言、视觉、听觉、触觉、味觉和嗅觉的综合感知。然而，人工智能的发展主要集中于文本、视觉和音频等数字模态。本文提出了未来十年多感官人工智能的研究愿景。通过将人工智能与人类感官及丰富信号谱相连接——从身体的生理与触觉线索，到家庭、城市及环境中的物理与社会信号——这一系列新技术能够改变人类与人工智能相互体验及交互的方式。我们阐述了该领域应如何通过感知、科学与协同这三个相互关联的主题推进发展。首先，感知研究应拓展人工智能超越数字媒介、以更丰富方式捕捉世界的能力。其次，需建立量化多模态异质性与相互作用的原理性科学，开发统一的建模架构与表征方法，并理解跨模态迁移机制。最后，我们提出了学习模态间及人机间协同作用的新技术挑战，涵盖多感官整合、对齐、推理、生成、泛化与体验。随本愿景文件附上的还有麻省理工学院媒体实验室多感官智能小组的最新进展项目集、资源库及演示案例，详见 https://mit-mi.github.io/。

0

相关内容

面向具身智能的多传感器融合感知综述：背景、方法、挑战与前景

面向具身智能的多传感器融合感知综述：背景、方法、挑战与前景

专知会员服务

18+阅读 · 2025年6月29日

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

专知会员服务

22+阅读 · 2025年5月30日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

44+阅读 · 2025年3月20日

【CMU博士论文】多感官人工智能的基础

【CMU博士论文】多感官人工智能的基础

专知会员服务

40+阅读 · 2024年5月3日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

202+阅读 · 2024年1月9日

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

专知会员服务

148+阅读 · 2022年6月25日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【CCL 2019】特邀报告，语言与视觉多模态智能的进展，京东AI研究院常务副院长何晓冬

【CCL 2019】特邀报告，语言与视觉多模态智能的进展，京东AI研究院常务副院长何晓冬

专知会员服务

49+阅读 · 2019年11月11日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

72+阅读 · 2022年6月30日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

97+阅读 · 2022年3月7日

【人机融合智能】人机融合智能的现状与展望

【人机融合智能】人机融合智能的现状与展望

产业智能官

11+阅读 · 2020年3月18日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

专知

24+阅读 · 2019年12月1日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

26+阅读 · 2019年9月9日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

视知觉学习中的脑功能网络变化及其与学习效果的关系

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知心理学与虚拟现实的感官营销与跨通道联结研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

AI in Education Beyond Learning Outcomes: Cognition, Agency, Emotion, and Ethics

Arxiv

0+阅读 · 2月4日

From Perception to Action: Spatial AI Agents and World Models

Arxiv

0+阅读 · 2月2日

Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities

Arxiv

0+阅读 · 2月1日

Toward Fully Autonomous Driving: AI, Challenges, Opportunities, and Needs

Arxiv

0+阅读 · 1月30日

Trustworthy Intelligent Education: A Systematic Perspective on Progress, Challenges, and Future Directions

Arxiv

1+阅读 · 1月29日

Empowering Scientific Workflows with Federated Agents

Arxiv

0+阅读 · 1月29日

Rethinking the AI Scientist: Interactive Multi-Agent Workflows for Scientific Discovery

Arxiv

0+阅读 · 1月27日

NeuroAI and Beyond

Arxiv

0+阅读 · 1月27日

Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents

Arxiv

0+阅读 · 1月18日

Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

麻省理工学院

相关VIP内容

面向具身智能的多传感器融合感知综述：背景、方法、挑战与前景

面向具身智能的多传感器融合感知综述：背景、方法、挑战与前景

专知会员服务

18+阅读 · 2025年6月29日

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

专知会员服务

22+阅读 · 2025年5月30日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

44+阅读 · 2025年3月20日

【CMU博士论文】多感官人工智能的基础

【CMU博士论文】多感官人工智能的基础

专知会员服务

40+阅读 · 2024年5月3日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

202+阅读 · 2024年1月9日

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

专知会员服务

148+阅读 · 2022年6月25日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【CCL 2019】特邀报告，语言与视觉多模态智能的进展，京东AI研究院常务副院长何晓冬

【CCL 2019】特邀报告，语言与视觉多模态智能的进展，京东AI研究院常务副院长何晓冬

专知会员服务

49+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

72+阅读 · 2022年6月30日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

97+阅读 · 2022年3月7日

【人机融合智能】人机融合智能的现状与展望

【人机融合智能】人机融合智能的现状与展望

产业智能官

11+阅读 · 2020年3月18日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

专知

24+阅读 · 2019年12月1日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

26+阅读 · 2019年9月9日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

交互设计理论：视觉感知、认知摩擦、认知负荷和情境认知

人人都是产品经理

20+阅读 · 2018年5月10日

相关论文

AI in Education Beyond Learning Outcomes: Cognition, Agency, Emotion, and Ethics

Arxiv

0+阅读 · 2月4日

From Perception to Action: Spatial AI Agents and World Models

Arxiv

0+阅读 · 2月2日

Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities

Arxiv

0+阅读 · 2月1日

Toward Fully Autonomous Driving: AI, Challenges, Opportunities, and Needs

Arxiv

0+阅读 · 1月30日

Trustworthy Intelligent Education: A Systematic Perspective on Progress, Challenges, and Future Directions

Arxiv

1+阅读 · 1月29日

Empowering Scientific Workflows with Federated Agents

Arxiv

0+阅读 · 1月29日

Rethinking the AI Scientist: Interactive Multi-Agent Workflows for Scientific Discovery

Arxiv

0+阅读 · 1月27日

NeuroAI and Beyond

Arxiv

0+阅读 · 1月27日

Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents

Arxiv

0+阅读 · 1月18日

Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities

Arxiv

0+阅读 · 1月16日

相关基金

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

视知觉学习中的脑功能网络变化及其与学习效果的关系

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知心理学与虚拟现实的感官营销与跨通道联结研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员