Recent advances in generative models have enabled modern Text-to-Audio (TTA) systems to synthesize audio with high perceptual quality. However, TTA systems often struggle to maintain semantic consistency with the input text, leading to mismatches in sound events, temporal tructures, or contextual relationships. Evaluating semantic fidelity in TTA remains a significant challenge. Traditional methods primarily rely on subjective human listening tests, which is time-consuming. To solve this, we propose an objective evaluator based on a Mixture of Experts (MoE) architecture with Sequential Cross-Attention (SeqCoAttn). Our model achieves the first rank in the XACLE Challenge, with an SRCC of 0.6402 (an improvement of 30.6% over the challenge baseline) on the test dataset. Code is available at: https://github.com/S-Orion/MOESCORE.


翻译:近年来,生成模型的进步使得现代文本到音频(TTA)系统能够合成具有高感知质量的音频。然而,TTA系统往往难以保持与输入文本的语义一致性,导致声音事件、时间结构或上下文关系的不匹配。评估TTA中的语义保真度仍然是一个重大挑战。传统方法主要依赖于耗时的主观人类听音测试。为解决此问题,我们提出了一种基于混合专家(MoE)架构与序列交叉注意力(SeqCoAttn)的客观评估器。我们的模型在XACLE挑战赛中取得了第一名,在测试数据集上的斯皮尔曼等级相关系数(SRCC)达到0.6402(相比挑战赛基线提升了30.6%)。代码发布于:https://github.com/S-Orion/MOESCORE。

0
下载
关闭预览

相关内容

【CVPR2025】BIMBA:面向长范围视频问答的选择性扫描压缩
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员