语音识别论文 - 专知

会员服务 ·

语音识别

语音识别是计算机科学和计算语言学的一个跨学科子领域，它发展了一些方法和技术，使计算机可以将口语识别和翻译成文本。它也被称为自动语音识别（ASR），计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

EmotionAI: A Privacy-Preserving Computational Intelligence Pipeline for Speech-Emotion-Grounded Conversational Analysis

Arxiv

0+阅读 · 6月22日

Data Scale, Not Latency, Shapes Cross-Lingual Encoder Transfer in Streaming ASR

Arxiv

0+阅读 · 6月23日

Cross-Dataset, Age, and Gender Generalization: A Comprehensive Analysis of Fine-Tuning Strategies for Low-Resource Children's ASR

Arxiv

0+阅读 · 6月23日

Layer-wise Probing of wav2vec 2.0 and Whisper for Consonant Cluster Reduction in African American English

Arxiv

0+阅读 · 6月22日

Contrastive Training with LLM-generated Near-Misses for Robust Code-Switching Speech Recognition

Arxiv

0+阅读 · 6月22日

ViMedCSS: A Vietnamese Medical Code-Switching Speech Dataset & Benchmark

Arxiv

0+阅读 · 6月22日

Progressive Alignment Objectives for Aligner-Encoder based ASR

Arxiv

0+阅读 · 6月23日

How Much Can We Trust LLM Search Agents? Measuring Endorsement Vulnerability to Web Content Manipulation

Arxiv

0+阅读 · 6月23日

Towards Truly Multilingual ASR: Generalizing Code-Switching ASR to Unseen Language Pairs

Arxiv

0+阅读 · 6月18日

Synthetic Audio Generation Framework for Air Traffic Control Speech Recognition

Arxiv

0+阅读 · 6月19日

Maintain Plasticity in Long-timescale Continual Test-time Adaptation

Arxiv

0+阅读 · 6月18日

WASIL: In-the-Wild Arabic Spoken Interactions with LLMs

Arxiv

0+阅读 · 6月22日

From Text Metrics to Model Internals: A Study of Whisper ASR Hallucination Detection

Arxiv

0+阅读 · 6月22日

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Arxiv

0+阅读 · 6月22日

OpenWER: Improving Cross-Lingual ASR Evaluation and Enabling Token-Based Accuracy Metrics

Arxiv

0+阅读 · 6月19日

参考链接

微信扫码咨询专知VIP会员