Shopping is a routine activity for sighted individuals, yet for people who are blind or have low vision (pBLV), locating and retrieving products in physical environments remains a challenge. This paper presents a multimodal wearable assistive system that integrates object detection with vision-language models to support independent product or item retrieval, with the goal of enhancing users'autonomy and sense of agency. The system operates through three phases: product search, which identifies target products using YOLO-World detection combined with embedding similarity and color histogram matching; product navigation, which provides spatialized sonification and VLM-generated verbal descriptions to guide users toward the target; and product correction, which verifies whether the user has reached the correct product and provides corrective feedback when necessary. Technical evaluation demonstrated promising performance across all modules, with product detection achieving near-perfect accuracy at close range and high accuracy when facing shelves within 1.5 m. VLM-based navigation achieved up to 94.4% accuracy, and correction accuracy exceeded 86% under optimal model configurations. These results demonstrate the system's potential to address the last-meter problem in assistive shopping. Future work will focus on user studies with pBLV participants and integration with multi-scale navigation ecosystems.


翻译:购物对于视力正常者而言是日常活动,但对于盲人或低视力人群,在实体环境中定位与检索商品仍面临挑战。本文提出一种多模态可穿戴辅助系统,该系统通过整合目标检测与视觉语言模型,支持独立的产品或物品检索,旨在提升用户自主性与能动感。系统通过三个阶段运行:产品搜索阶段,采用YOLO-World检测结合嵌入相似度与颜色直方图匹配来识别目标产品;产品导航阶段,通过空间化声波合成与视觉语言模型生成的语音描述引导用户接近目标;产品校正阶段,验证用户是否抵达正确产品并在必要时提供纠正反馈。技术评估显示所有模块均表现优异:产品检测在近距离达到近乎完美的准确率,在1.5米内面向货架时仍保持高准确率;基于视觉语言模型的导航准确率最高达94.4%;校正模块在最优模型配置下准确率超过86%。这些结果证明了该系统在解决辅助购物"最后一米"难题方面的潜力。未来工作将聚焦于开展盲人或低视力参与者用户研究,并与多尺度导航生态系统进行集成。

0
下载
关闭预览

相关内容

用来满足人们需求和欲望的物体或无形的载体。好的产品大家都喜欢
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
VizWiz数据集:用计算机视觉回答盲人的问题
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员