Recent advances in Speech Large Language Models (Speech-LLMs) have made significant progress, greatly enhancing multimodal interaction capabilities.However, their application in low-resource and dialect-diverse environments still faces challenges. The severe scarcity of Tibetan data, coupled with the phonetic differences among its major dialects (Ü-Tsang, Amdo, and Kham), is a prime example of this challenge. This paper proposes Ti-Audio, the first multi-dialectal end-to-end Speech-LLM for Tibetan. To efficiently align speech and text, we introduce a Dynamic Q-Former Adapter that extracts essential acoustic features from variable-length speech, ensuring stable cross-modal alignment even with limited data. At the data level, we leverage mutual assistance among related dialects to alleviate data scarcity and employ a temperature-based sampling strategy to maximize this synergy. Experimental results demonstrate that Ti-Audio achieves state-of-the-art performance on Tibetan benchmarks for automatic speech recognition and speech translation. Our work validates the effectiveness of cross-dialectal cooperation and provides a scalable paradigm for the development of Speech-LLM in low-resource scenarios.


翻译:近年来,语音大语言模型(Speech-LLMs)取得了显著进展,极大地增强了多模态交互能力。然而,其在低资源及方言多样性环境中的应用仍面临挑战。藏语数据严重匮乏,加之其主要方言(卫藏、安多、康巴)间的语音差异,便是这一挑战的典型例证。本文提出Ti-Audio,这是首个面向藏语的多方言端到端语音大语言模型。为高效对齐语音与文本,我们引入动态Q-Former适配器(Dynamic Q-Former Adapter),从可变长度语音中提取关键声学特征,确保在数据有限的情况下实现稳定的跨模态对齐。在数据层面,我们利用相关方言间的互助力缓解数据稀缺问题,并采用基于温度的采样策略以最大化这种协同效应。实验结果表明,Ti-Audio在藏语自动语音识别与语音翻译基准测试中均达到了最先进性能。我们的工作验证了跨方言协作的有效性,并为低资源场景下语音大语言模型的发展提供了可扩展范式。

0
下载
关闭预览

相关内容

大语言模型基准综述
专知会员服务
27+阅读 · 2025年8月22日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
《语音大语言模型》最新进展综述
专知会员服务
58+阅读 · 2024年10月8日
《多模态大型语言模型》最新进展,详述26种现有MM-LLMs
专知会员服务
65+阅读 · 2024年1月25日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员