面向盲人和低视力用户的多模态智能体视频播放器 (Making Videos Accessible for Blind and Low Vision Users Using a Multimodal Agent Video Player) - 专知论文

会员服务 ·

0

视频 · 多模 · 模态 · 多模态智能 · 多模态智能体 ·

Making Videos Accessible for Blind and Low Vision Users Using a Multimodal Agent Video Player

翻译：面向盲人和低视力用户的多模态智能体视频播放器

Adriana Olmos,Anoop K. Sinha,Renelito Delos Santos,Ruben Rodriguez Rodriguez,James A. Landay,Sam S. Sepah,Philip Nelson,Shaun K. Kane

Video content remains largely inaccessible to blind and low-vision (BLV) users. To address this, we introduce a prototype that leverages a multimodal agent - powered by a novel conversational architecture using a multimodal large language model (MLLM) - to provide BLV users with an interactive, accessible video experience. This Multimodal Agent Video Player (MAVP) demonstrates that an interactive accessibility mode can be added to a video through multilayered prompt orchestration. We describe a user-centered design process involving 18 sessions with BLV users that showed that BLV users do not just want accessibility features, but desire independence and personal agency over the viewing experience. We conducted a qualitative study with an additional 8 BLV participants; in this, we saw that the MAVP's conversational dialogue offers BLV users a sense of personal agency, fostering collaboration and trust. Even in the case of hallucinations, it is meta-conversational dialogues about AI's limitations that can repair trust.

翻译：视频内容对盲人和低视力用户而言仍然普遍难以访问。为解决这一问题，我们引入了一个原型系统，该系统利用多模态智能体——通过采用多模态大语言模型的新型对话架构驱动——为盲人和低视力用户提供交互式、可访问的视频体验。这款多模态智能体视频播放器证明，通过多层提示编排，可以为视频添加交互式无障碍模式。我们描述了一个以用户为中心的设计过程，其中包含与盲人和低视力用户进行的18次访谈，结果显示这些用户不仅需要无障碍功能，更渴望在观看体验中获得独立性和个人自主权。我们随后对另外8名盲人和低视力参与者进行了定性研究；研究发现，该播放器的对话式交互为用户提供了个人自主感，促进了协作与信任。即使在出现幻觉的情况下，正是关于人工智能局限性的元对话能够修复信任。

0

相关内容

视频

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

12+阅读 · 2月20日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

21+阅读 · 2025年5月26日

蚂蚁多模态团队在视频多模态方向的技术探索

蚂蚁多模态团队在视频多模态方向的技术探索

专知会员服务

24+阅读 · 2024年5月25日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

202+阅读 · 2024年1月9日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

专知会员服务

148+阅读 · 2022年6月25日

【Paul Liang】多模态深度学习，Multimodal Deep Learning

【Paul Liang】多模态深度学习，Multimodal Deep Learning

专知会员服务

185+阅读 · 2022年4月12日

【牛津大学博士论文】使用多模态深度学习的视频理解

专知会员服务

68+阅读 · 2021年10月15日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知会员服务

75+阅读 · 2020年8月30日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【资源】深度学习视频分析/多模态学习资源大列表

【资源】深度学习视频分析/多模态学习资源大列表

专知

48+阅读 · 2019年10月17日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

26+阅读 · 2019年9月9日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

智东西

10+阅读 · 2019年7月23日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

VizWiz数据集：用计算机视觉回答盲人的问题

VizWiz数据集：用计算机视觉回答盲人的问题

论智

10+阅读 · 2018年2月26日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

多目主动相机智能监控关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

采用多模态磁共振技术研究知觉学习干预成人弱视的神经环路可塑性机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

How Multimodal Large Language Models Support Access to Visual Information: A Diary Study With Blind and Low Vision People

Arxiv

0+阅读 · 2月19日

Say It My Way: Exploring Control in Conversational Visual Question Answering with Blind Users

Arxiv

0+阅读 · 2月18日

Supporting Multimodal Data Interaction on Refreshable Tactile Displays: An Architecture to Combine Touch and Conversational AI

Arxiv

0+阅读 · 2月17日

WISE: A Multimodal Search Engine for Visual Scenes, Audio, Objects, Faces, Speech, and Metadata

Arxiv

0+阅读 · 2月13日

RAVEN: Realtime Accessibility in Virtual ENvironments for Blind and Low-Vision People

Arxiv

0+阅读 · 2月8日

ADCanvas: Accessible and Conversational Audio Description Authoring for Blind and Low Vision Creators

Arxiv

0+阅读 · 2月6日

Active Perception Agent for Omnimodal Audio-Video Understanding

Arxiv

0+阅读 · 2月5日

VRARE: Using Virtual Reality to Understand Accessibility Requirements of Color Blindness and Weakness

Arxiv

0+阅读 · 2月4日

Scene-Aware Vectorized Memory Multi-Agent Framework with Cross-Modal Differentiated Quantization VLMs for Visually Impaired Assistance

Arxiv

0+阅读 · 1月17日

Video-Browser: Towards Agentic Open-web Video Browsing

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

多模态智能

多模态智能体

相关VIP内容

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

12+阅读 · 2月20日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

21+阅读 · 2025年5月26日

蚂蚁多模态团队在视频多模态方向的技术探索

蚂蚁多模态团队在视频多模态方向的技术探索

专知会员服务

24+阅读 · 2024年5月25日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

202+阅读 · 2024年1月9日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

专知会员服务

148+阅读 · 2022年6月25日

【Paul Liang】多模态深度学习，Multimodal Deep Learning

【Paul Liang】多模态深度学习，Multimodal Deep Learning

专知会员服务

185+阅读 · 2022年4月12日

【牛津大学博士论文】使用多模态深度学习的视频理解

专知会员服务

68+阅读 · 2021年10月15日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知会员服务

75+阅读 · 2020年8月30日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【资源】深度学习视频分析/多模态学习资源大列表

【资源】深度学习视频分析/多模态学习资源大列表

专知

48+阅读 · 2019年10月17日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

26+阅读 · 2019年9月9日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

智东西

10+阅读 · 2019年7月23日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

VizWiz数据集：用计算机视觉回答盲人的问题

VizWiz数据集：用计算机视觉回答盲人的问题

论智

10+阅读 · 2018年2月26日

相关论文

How Multimodal Large Language Models Support Access to Visual Information: A Diary Study With Blind and Low Vision People

Arxiv

0+阅读 · 2月19日

Say It My Way: Exploring Control in Conversational Visual Question Answering with Blind Users

Arxiv

0+阅读 · 2月18日

Supporting Multimodal Data Interaction on Refreshable Tactile Displays: An Architecture to Combine Touch and Conversational AI

Arxiv

0+阅读 · 2月17日

WISE: A Multimodal Search Engine for Visual Scenes, Audio, Objects, Faces, Speech, and Metadata

Arxiv

0+阅读 · 2月13日

RAVEN: Realtime Accessibility in Virtual ENvironments for Blind and Low-Vision People

Arxiv

0+阅读 · 2月8日

ADCanvas: Accessible and Conversational Audio Description Authoring for Blind and Low Vision Creators

Arxiv

0+阅读 · 2月6日

Active Perception Agent for Omnimodal Audio-Video Understanding

Arxiv

0+阅读 · 2月5日

VRARE: Using Virtual Reality to Understand Accessibility Requirements of Color Blindness and Weakness

Arxiv

0+阅读 · 2月4日

Scene-Aware Vectorized Memory Multi-Agent Framework with Cross-Modal Differentiated Quantization VLMs for Visually Impaired Assistance

Arxiv

0+阅读 · 1月17日

Video-Browser: Towards Agentic Open-web Video Browsing

Arxiv

0+阅读 · 1月16日

相关基金

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

多目主动相机智能监控关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

采用多模态磁共振技术研究知觉学习干预成人弱视的神经环路可塑性机制

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员