成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
文本转语音
关注
1
综合
百科
VIP
热门
动态
论文
精华
LLM-to-Speech: A Synthetic Data Pipeline for Training Dialectal Text-to-Speech Models
Arxiv
0+阅读 · 2月17日
Emotion-Aligned Generation in Diffusion Text to Speech Models via Preference-Guided Optimization
Arxiv
0+阅读 · 2月6日
Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions
Arxiv
0+阅读 · 1月19日
Confidence-based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens
Arxiv
0+阅读 · 1月18日
Audio Deepfake Detection in the Age of Advanced Text-to-Speech models
Arxiv
0+阅读 · 1月28日
VoXtream: Full-Stream Text-to-Speech with Extremely Low Latency
Arxiv
0+阅读 · 1月26日
Lombard Speech Synthesis for Any Voice with Controllable Style Embeddings
Arxiv
0+阅读 · 1月19日
Word-Level Emotional Expression Control in Zero-Shot Text-to-Speech Synthesis
Arxiv
0+阅读 · 1月11日
SPAM: Style Prompt Adherence Metric for Prompt-based TTS
Arxiv
0+阅读 · 1月9日
OV-InstructTTS: Towards Open-Vocabulary Instruct Text-to-Speech
Arxiv
0+阅读 · 1月4日
Training Text-to-Speech Model with Purely Synthetic Data: Feasibility, Sensitivity, and Generalization Capability
Arxiv
0+阅读 · 2025年12月19日
RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS
Arxiv
0+阅读 · 2025年12月4日
PolyNorm: Few-Shot LLM-Based Text Normalization for Text-to-Speech
Arxiv
0+阅读 · 2025年11月5日
Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio
Arxiv
0+阅读 · 2025年11月14日
A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI
Arxiv
0+阅读 · 2023年4月2日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top