聋人与听障人士对智能个人助理的访问：语音交互方案与基于大语言模型的触控界面比较 (Deaf and Hard of Hearing Access to Intelligent Personal Assistants: Comparison of Voice-Based Options with an LLM-Powered Touch Interface) - 专知论文

会员服务 ·

0

交互 · 个人助理 · 语言模型 · 识别 · 语音识别 ·

Deaf and Hard of Hearing Access to Intelligent Personal Assistants: Comparison of Voice-Based Options with an LLM-Powered Touch Interface

翻译：聋人与听障人士对智能个人助理的访问：语音交互方案与基于大语言模型的触控界面比较

Paige S. DeVries,Michaela Okosi,Ming Li,Nora Dunphy,Gidey Gezae,Dante Conway,Abraham Glasser,Raja Kushalnagar,Christian Vogler

from arxiv, Accepted for publication in ACM CHI 2026

We investigate intelligent personal assistants (IPAs) accessibility for deaf and hard of hearing (DHH) people who can use their voice in everyday communication. The inability of IPAs to understand diverse accents including deaf speech renders them largely inaccessible to non-signing and speaking DHH individuals. Using an Echo Show, we compare the usability of natural language input via spoken English; with Alexa's automatic speech recognition and a Wizard-of-Oz setting with a trained facilitator re-speaking commands against that of a large language model (LLM)-assisted touch interface in a mixed-methods study. The touch method was navigated through an LLM-powered "task prompter," which integrated the user's history and smart environment to suggest contextually-appropriate commands. Quantitative results showed no significant differences across both spoken English conditions vs LLM-assisted touch. Qualitative results showed variability in opinions on the usability of each method. Ultimately, it will be necessary to have robust deaf-accented speech recognized natively by IPAs.

翻译：本研究探讨了能够在日常交流中使用语音的聋人与听障人士对智能个人助理的可访问性。由于智能个人助理无法理解包括聋人语音在内的多样化口音，导致其对于非手语使用者但具备口语能力的聋人与听障个体基本不可用。通过采用混合研究方法，我们使用Echo Show设备比较了以下三种交互方式的可用性：基于英语自然语言的语音输入（通过Alexa自动语音识别系统实现）、采用训练有素的协助者复述指令的“绿野仙踪”模拟设置，以及基于大语言模型的触控界面。触控交互方式通过一个由大语言模型驱动的“任务提示器”进行导航，该提示器整合用户历史记录与智能环境信息，以推荐符合情境的操作指令。定量研究结果显示，两种英语语音交互条件与基于大语言模型的触控界面之间不存在显著差异。定性研究结果则显示参与者对不同交互方式的可用性评价存在差异。最终，实现智能个人助理原生支持对聋人口音的鲁棒性语音识别将是必要的发展方向。

0

相关内容

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

0+阅读 · 今天11:06

【博士论文】基于视觉的手语处理：识别、翻译与生成

【博士论文】基于视觉的手语处理：识别、翻译与生成

专知会员服务

13+阅读 · 2025年3月3日

【伯克利博士论文】迈向能够理解丰富交流的智能体，219页pdf

【伯克利博士论文】迈向能够理解丰富交流的智能体，219页pdf

专知会员服务

37+阅读 · 2024年9月13日

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

专知会员服务

160+阅读 · 2023年8月23日

如何构建CV中的AGI？华为最新《计算机视觉中的人工通用智能：从GPT和大型语言模型中学到的经验教训》

如何构建CV中的AGI？华为最新《计算机视觉中的人工通用智能：从GPT和大型语言模型中学到的经验教训》

专知会员服务

57+阅读 · 2023年6月21日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

【南洋理工博士论文】从知识增强到多任务:面向类人对话系统，109页pdf

【南洋理工博士论文】从知识增强到多任务:面向类人对话系统，109页pdf

专知会员服务

29+阅读 · 2022年12月13日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【北京智源大会2019】增强人类智能：从搜索引擎到智能任务助理（ Augmenting Human Intelligence: From Search Engines to Intelligent Task Assistants ）

【北京智源大会2019】增强人类智能：从搜索引擎到智能任务助理（ Augmenting Human Intelligence: From Search Engines to Intelligent Task Assistants ）

专知会员服务

20+阅读 · 2019年11月22日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

书单 | 语音研究进阶指南

书单 | 语音研究进阶指南

微软研究院AI头条

12+阅读 · 2019年3月22日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

人工智能学家

15+阅读 · 2018年8月4日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

VizWiz数据集：用计算机视觉回答盲人的问题

VizWiz数据集：用计算机视觉回答盲人的问题

论智

10+阅读 · 2018年2月26日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

静息态fMRI联合DTI对rTMS干预亚急性期完全性失语症功能连接和结构连接的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态MRI语前聋伴认知障碍患者注意网络变化及其发生机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

Say It My Way: Exploring Control in Conversational Visual Question Answering with Blind Users

Arxiv

0+阅读 · 2月18日

Can we trust AI to detect healthy multilingual English speakers among the cognitively impaired cohort in the UK? An investigation using real-world conversational speech

Arxiv

0+阅读 · 2月13日

VoiceAgentBench: Are Voice Assistants ready for agentic tasks?

Arxiv

0+阅读 · 2月13日

Reimagining Sign Language Technologies: Analyzing Translation Work of Chinese Deaf Online Content Creators

Arxiv

0+阅读 · 2月10日

Equipping LLM with Directional Multi-Talker Speech Understanding Capabilities

Arxiv

0+阅读 · 2月6日

(Computer) Vision in Action: Comparing Remote Sighted Assistance and a Multimodal Voice Agent in Inspection Sequences

Arxiv

0+阅读 · 2月5日

Enabling Automatic Disordered Speech Recognition: An Impaired Speech Dataset in the Akan Language

Arxiv

0+阅读 · 2月5日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

Sign Language-Based versus Touch-Based Input for Deaf Users with Interactive Personal Assistants in Simulated Kitchen Environments

Arxiv

0+阅读 · 1月22日

Deaf and Hard of Hearing Access to Intelligent Personal Assistants: Comparison of Voice-Based Options with an LLM-Powered Touch Interface

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

相关VIP内容

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

0+阅读 · 今天11:06

【博士论文】基于视觉的手语处理：识别、翻译与生成

【博士论文】基于视觉的手语处理：识别、翻译与生成

专知会员服务

13+阅读 · 2025年3月3日

【伯克利博士论文】迈向能够理解丰富交流的智能体，219页pdf

【伯克利博士论文】迈向能够理解丰富交流的智能体，219页pdf

专知会员服务

37+阅读 · 2024年9月13日

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

专知会员服务

160+阅读 · 2023年8月23日

如何构建CV中的AGI？华为最新《计算机视觉中的人工通用智能：从GPT和大型语言模型中学到的经验教训》

如何构建CV中的AGI？华为最新《计算机视觉中的人工通用智能：从GPT和大型语言模型中学到的经验教训》

专知会员服务

57+阅读 · 2023年6月21日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

【南洋理工博士论文】从知识增强到多任务:面向类人对话系统，109页pdf

【南洋理工博士论文】从知识增强到多任务:面向类人对话系统，109页pdf

专知会员服务

29+阅读 · 2022年12月13日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【北京智源大会2019】增强人类智能：从搜索引擎到智能任务助理（ Augmenting Human Intelligence: From Search Engines to Intelligent Task Assistants ）

【北京智源大会2019】增强人类智能：从搜索引擎到智能任务助理（ Augmenting Human Intelligence: From Search Engines to Intelligent Task Assistants ）

专知会员服务

20+阅读 · 2019年11月22日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

书单 | 语音研究进阶指南

书单 | 语音研究进阶指南

微软研究院AI头条

12+阅读 · 2019年3月22日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

人工智能学家

15+阅读 · 2018年8月4日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

VizWiz数据集：用计算机视觉回答盲人的问题

VizWiz数据集：用计算机视觉回答盲人的问题

论智

10+阅读 · 2018年2月26日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

相关论文

Say It My Way: Exploring Control in Conversational Visual Question Answering with Blind Users

Arxiv

0+阅读 · 2月18日

Can we trust AI to detect healthy multilingual English speakers among the cognitively impaired cohort in the UK? An investigation using real-world conversational speech

Arxiv

0+阅读 · 2月13日

VoiceAgentBench: Are Voice Assistants ready for agentic tasks?

Arxiv

0+阅读 · 2月13日

Reimagining Sign Language Technologies: Analyzing Translation Work of Chinese Deaf Online Content Creators

Arxiv

0+阅读 · 2月10日

Equipping LLM with Directional Multi-Talker Speech Understanding Capabilities

Arxiv

0+阅读 · 2月6日

(Computer) Vision in Action: Comparing Remote Sighted Assistance and a Multimodal Voice Agent in Inspection Sequences

Arxiv

0+阅读 · 2月5日

Enabling Automatic Disordered Speech Recognition: An Impaired Speech Dataset in the Akan Language

Arxiv

0+阅读 · 2月5日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

Sign Language-Based versus Touch-Based Input for Deaf Users with Interactive Personal Assistants in Simulated Kitchen Environments

Arxiv

0+阅读 · 1月22日

Deaf and Hard of Hearing Access to Intelligent Personal Assistants: Comparison of Voice-Based Options with an LLM-Powered Touch Interface

Arxiv

0+阅读 · 1月21日

相关基金

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

静息态fMRI联合DTI对rTMS干预亚急性期完全性失语症功能连接和结构连接的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态MRI语前聋伴认知障碍患者注意网络变化及其发生机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员