Our experience of the world is multisensory, spanning a synthesis of language, sight, sound, touch, taste, and smell. Yet, artificial intelligence has primarily advanced in digital modalities like text, vision, and audio. This paper outlines a research vision for multisensory artificial intelligence over the next decade. This new set of technologies can change how humans and AI experience and interact with one another, by connecting AI to the human senses and a rich spectrum of signals from physiological and tactile cues on the body, to physical and social signals in homes, cities, and the environment. We outline how this field must advance through three interrelated themes of sensing, science, and synergy. Firstly, research in sensing should extend how AI captures the world in richer ways beyond the digital medium. Secondly, developing a principled science for quantifying multimodal heterogeneity and interactions, developing unified modeling architectures and representations, and understanding cross-modal transfer. Finally, we present new technical challenges to learn synergy between modalities and between humans and AI, covering multisensory integration, alignment, reasoning, generation, generalization, and experience. Accompanying this vision paper are a series of projects, resources, and demos of latest advances from the Multisensory Intelligence group at the MIT Media Lab, see https://mit-mi.github.io/.


翻译:我们对世界的体验是多感官的,涵盖语言、视觉、听觉、触觉、味觉和嗅觉的综合感知。然而,人工智能的发展主要集中于文本、视觉和音频等数字模态。本文提出了未来十年多感官人工智能的研究愿景。通过将人工智能与人类感官及丰富信号谱相连接——从身体的生理与触觉线索,到家庭、城市及环境中的物理与社会信号——这一系列新技术能够改变人类与人工智能相互体验及交互的方式。我们阐述了该领域应如何通过感知、科学与协同这三个相互关联的主题推进发展。首先,感知研究应拓展人工智能超越数字媒介、以更丰富方式捕捉世界的能力。其次,需建立量化多模态异质性与相互作用的原理性科学,开发统一的建模架构与表征方法,并理解跨模态迁移机制。最后,我们提出了学习模态间及人机间协同作用的新技术挑战,涵盖多感官整合、对齐、推理、生成、泛化与体验。随本愿景文件附上的还有麻省理工学院媒体实验室多感官智能小组的最新进展项目集、资源库及演示案例,详见 https://mit-mi.github.io/。

0
下载
关闭预览

相关内容

【CMU博士论文】多感官人工智能的基础
专知会员服务
40+阅读 · 2024年5月3日
【人机融合智能】人机融合智能的现状与展望
产业智能官
11+阅读 · 2020年3月18日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 1月27日
VIP会员
相关VIP内容
【CMU博士论文】多感官人工智能的基础
专知会员服务
40+阅读 · 2024年5月3日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员