Scene recognition is important for hearing devices, however; this is challenging, in part because of the limitations of existing datasets. Datasets often lack public accessibility, completeness, or audiologically relevant labels, hindering systematic comparison of machine learning models. Deploying such models on resource-constrained edge devices presents another challenge.The proposed solution is two-fold, a repack and refinement of several open source datasets to create AHEAD-DS, a dataset designed for auditory scene recognition for hearing devices, and introduce OpenYAMNet, a sound recognition model. AHEAD-DS aims to provide a standardised, publicly available dataset with consistent labels relevant to hearing aids, facilitating model comparison. OpenYAMNet is designed for deployment on edge devices like smartphones connected to hearing devices, such as hearing aids and wireless earphones with hearing aid functionality, serving as a baseline model for sound-based scene recognition. OpenYAMNet achieved a mean average precision of 0.86 and accuracy of 0.93 on the testing set of AHEAD-DS across fourteen categories relevant to auditory scene recognition. Real-time sound-based scene recognition capabilities were demonstrated on edge devices by deploying OpenYAMNet to an Android smartphone. Even with a 2018 Google Pixel 3, a phone with modest specifications, the model processes audio with approximately 50ms of latency to load the model, and an approximate linear increase of 30ms per 1 second of audio. The project website with links to code, data, and models. \href{https://github.com/Australian-Future-Hearing-Initiative}{https://github.com/Australian-Future-Hearing-Initiative}


翻译:场景识别对听力设备至关重要,然而,这一任务具有挑战性,部分原因在于现有数据集的局限性。现有数据集往往缺乏公开可访问性、完整性或听力学相关标签,这阻碍了机器学习模型的系统性比较。在资源受限的边缘设备上部署此类模型则构成了另一项挑战。本文提出的解决方案包括两个方面:对多个开源数据集进行重新整合与精炼,构建了专为听力设备听觉场景识别设计的AHEAD-DS数据集;同时引入了声音识别模型OpenYAMNet。AHEAD-DS旨在提供一个标准化、公开可用的数据集,其标签与助听器应用场景保持一致,以促进模型比较。OpenYAMNet专为在边缘设备(如连接听力设备的智能手机)上部署而设计,这些设备包括助听器以及具备助听功能的无线耳机,该模型可作为基于声音的场景识别的基准模型。在AHEAD-DS测试集上,针对听觉场景识别相关的十四个类别,OpenYAMNet取得了0.86的平均精度均值(mAP)和0.93的准确率。通过将OpenYAMNet部署至Android智能手机,在边缘设备上实现了实时的基于声音的场景识别能力。即使在硬件配置较为普通的2018年款Google Pixel 3手机上,模型加载音频的延迟约为50毫秒,且每处理1秒音频的延迟时间近似线性增加30毫秒。项目网站提供了代码、数据及模型的访问链接:\href{https://github.com/Australian-Future-Hearing-Initiative}{https://github.com/Australian-Future-Hearing-Initiative}

0
下载
关闭预览

相关内容

开放场景下新型机器学习理论与方法研究
专知会员服务
21+阅读 · 2025年1月18日
【博士论文】开放集识别及其在计算机视觉中的应用
专知会员服务
23+阅读 · 2025年1月16日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
视频目标识别资源集合
专知
25+阅读 · 2019年6月15日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员