成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
语音识别
关注
753
语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
综合
百科
VIP
热门
动态
论文
精华
VALLR: Visual ASR Language Model for Lip Reading
Arxiv
0+阅读 · 1月5日
Bridging the gap: A comparative exploration of Speech-LLM and end-to-end architecture for multilingual conversational ASR
Arxiv
0+阅读 · 1月4日
Index-ASR Technical Report
Arxiv
0+阅读 · 2025年12月31日
SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models
Arxiv
0+阅读 · 1月3日
IO-RAE: Information-Obfuscation Reversible Adversarial Example for Audio Privacy Protection
Arxiv
0+阅读 · 1月3日
IKFST: IOO and KOO Algorithms for Accelerated and Precise WFST-based End-to-End Automatic Speech Recognition
Arxiv
0+阅读 · 1月1日
Navigating the Reality Gap: Privacy-Preserving On-Device Continual Adaptation of ASR for Clinical Telephony
Arxiv
0+阅读 · 1月1日
A Language-Agnostic Hierarchical LoRA-MoE Architecture for CTC-based Multilingual ASR
Arxiv
0+阅读 · 1月2日
PROFASR-BENCH: A Benchmark for Context-Conditioned ASR in High-Stakes Professional Speech
Arxiv
0+阅读 · 2025年12月29日
VALLR-Pin: Uncertainty-Factorized Visual Speech Recognition for Mandarin with Pinyin Guidance
Arxiv
0+阅读 · 2025年12月29日
Marco-ASR: A Principled and Metric-Driven Framework for Fine-Tuning Large-Scale ASR Models for Domain Adaptation
Arxiv
0+阅读 · 2025年12月17日
Phoneme-based speech recognition driven by large language models and sampling marginalization
Arxiv
0+阅读 · 2025年12月20日
Kunnafonidilaw ka Cadeau: an ASR dataset of present-day Bambara
Arxiv
0+阅读 · 2025年12月22日
Fun-ASR Technical Report
Arxiv
0+阅读 · 2025年12月19日
TICL+: A Case Study On Speech In-Context Learning for Children's Speech Recognition
Arxiv
0+阅读 · 2025年12月20日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top