Video content remains largely inaccessible to blind and low-vision (BLV) users. To address this, we introduce a prototype that leverages a multimodal agent - powered by a novel conversational architecture using a multimodal large language model (MLLM) - to provide BLV users with an interactive, accessible video experience. This Multimodal Agent Video Player (MAVP) demonstrates that an interactive accessibility mode can be added to a video through multilayered prompt orchestration. We describe a user-centered design process involving 18 sessions with BLV users that showed that BLV users do not just want accessibility features, but desire independence and personal agency over the viewing experience. We conducted a qualitative study with an additional 8 BLV participants; in this, we saw that the MAVP's conversational dialogue offers BLV users a sense of personal agency, fostering collaboration and trust. Even in the case of hallucinations, it is meta-conversational dialogues about AI's limitations that can repair trust.


翻译:视频内容对盲人和低视力用户而言仍然普遍难以访问。为解决这一问题,我们引入了一个原型系统,该系统利用多模态智能体——通过采用多模态大语言模型的新型对话架构驱动——为盲人和低视力用户提供交互式、可访问的视频体验。这款多模态智能体视频播放器证明,通过多层提示编排,可以为视频添加交互式无障碍模式。我们描述了一个以用户为中心的设计过程,其中包含与盲人和低视力用户进行的18次访谈,结果显示这些用户不仅需要无障碍功能,更渴望在观看体验中获得独立性和个人自主权。我们随后对另外8名盲人和低视力参与者进行了定性研究;研究发现,该播放器的对话式交互为用户提供了个人自主感,促进了协作与信任。即使在出现幻觉的情况下,正是关于人工智能局限性的元对话能够修复信任。

0
下载
关闭预览

相关内容

Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
蚂蚁多模态团队在视频多模态方向的技术探索
专知会员服务
24+阅读 · 2024年5月25日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
185+阅读 · 2022年4月12日
专知会员服务
68+阅读 · 2021年10月15日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
VizWiz数据集:用计算机视觉回答盲人的问题
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
蚂蚁多模态团队在视频多模态方向的技术探索
专知会员服务
24+阅读 · 2024年5月25日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
185+阅读 · 2022年4月12日
专知会员服务
68+阅读 · 2021年10月15日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员