成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
语音识别
关注
753
语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
综合
百科
VIP
热门
动态
论文
精华
Back to Basics: Revisiting ASR in the Age of Voice Agents
Arxiv
0+阅读 · 3月26日
Kill-Chain Canaries: Stage-Level Tracking of Prompt Injection Across Attack Surfaces and Model Safety Tiers
Arxiv
0+阅读 · 4月3日
Audio2Tool: Speak, Call, Act -- A Dataset for Benchmarking Speech Tool Use
Arxiv
0+阅读 · 4月28日
Diffusion Language Models for Speech Recognition
Arxiv
0+阅读 · 4月15日
Diffusion Language Models for Speech Recognition
Arxiv
0+阅读 · 4月29日
AURA: Always-On Understanding and Real-Time Assistance via Video Streams
Arxiv
0+阅读 · 4月5日
MiDashengLM: Efficient Audio Understanding with General Audio Captions
Arxiv
0+阅读 · 3月26日
Diagnostic-Driven Layer-Wise Compensation for Post-Training Quantization of Encoder-Decoder ASR Models
Arxiv
0+阅读 · 4月27日
WhisperRT -- Turning Whisper into a Causal Streaming Model
Arxiv
0+阅读 · 4月5日
Evaluation of Automatic Speech Recognition Using Generative Large Language Models
Arxiv
0+阅读 · 4月23日
Goodness-of-pronunciation without phoneme time alignment
Arxiv
0+阅读 · 3月26日
Not All Tokens Are Created Equal: Query-Efficient Jailbreak Fuzzing for LLMs
Arxiv
0+阅读 · 3月24日
WhisperPipe: A Resource-Efficient Streaming Architecture for Real-Time Automatic Speech Recognition
Arxiv
0+阅读 · 4月28日
Demonstration of Adapt4Me: An Uncertainty-Aware Authoring Environment for Personalizing Automatic Speech Recognition to Non-normative Speech
Arxiv
0+阅读 · 3月20日
Identifying and typifying demographic unfairness in phoneme-level embeddings of self-supervised speech recognition models
Arxiv
0+阅读 · 4月24日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top