语音生成论文 - 专知

会员服务 ·

语音生成

NVV-SuperBench: Beyond Words, Beyond Quality-Benchmarking Nonverbal Vocalizations in Speech Generation

Arxiv

0+阅读 · 6月14日

OpenBibleTTS: Large-Scale Speech Resources and TTS Models for Low-Resource Languages

Arxiv

0+阅读 · 6月8日

VoxCPM2 Technical Report

Arxiv

0+阅读 · 6月5日

SARA: A Dual-Stream VAE for High-Fidelity Speech Generation via Integrating Semantic and Acoustic Representations

Arxiv

0+阅读 · 6月10日

HoliTok:A Coutinuous Holistic Tokenization with Robust Dual Capabilities of Speech Generation and Understanding

Arxiv

0+阅读 · 6月1日

UniVoice: A Unified Model for Speech and Singing Voice Generation

Arxiv

0+阅读 · 6月4日

Can We Hear from Events? Generating Speech from Event Camera

Arxiv

0+阅读 · 5月26日

UniSRM: A Unified Speech Reward Model for Reasoning-Based Fine-grained Assessment

Arxiv

0+阅读 · 5月22日

Me, Myself, and My Voice: Exploring Cultural and Linguistic Identity in AAC AI-generated Voices

Arxiv

0+阅读 · 5月23日

Mitigating Proxy-to-Wild Domain Gap in Deepfake Speech

Arxiv

0+阅读 · 6月5日

MOSS-TTSD: Text to Spoken Dialogue Generation

Arxiv

0+阅读 · 3月20日

SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation

Arxiv

0+阅读 · 4月22日

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Arxiv

0+阅读 · 3月20日

Giving Meaning to Movements: Challenges and Opportunities in Expanding Communication by Pairing Unaided AAC with Speech Generated Messages

Arxiv

0+阅读 · 2月25日

CLARITY: Contextual Linguistic Adaptation and Accent Retrieval for Dual-Bias Mitigation in Text-to-Speech Generation

Arxiv

0+阅读 · 2月17日

参考链接

微信扫码咨询专知VIP会员