As audio-first agents become increasingly common in physical AI, conversational robots, and screenless wearables, audio large language models (audio-LLMs) must integrate speaker-specific understanding to support user authorization, personalization, and context-aware interaction. This requires modeling who is speaking, how the voice sounds, and how recording conditions affect speaker cues. Conventional speaker verification systems provide strong scalar scores but little linguistic evidence, while current audio-LLMs and speaker-aware language models have limited ability to organize speaker information beyond binary labels or descriptive profiles. We present SpeakerLLM, a speaker-specialized audio-LLM framework that unifies single-utterance speaker profiling, recording-condition understanding, utterance-pair speaker comparison, and evidence-organized verification reasoning within a natural-language interface. We construct verification-reasoning targets and a decision-composition policy that separate profile-level evidence from the final same-or-different decision and organize recording condition, profile evidence, and the decision into a structured trace. At its core, SpeakerLLM uses a hierarchical speaker tokenizer designed to capture multiple granularities of speaker evidence. Utterance-level speaker embeddings summarize identity and profile-level cues, whereas frame-level speaker features preserve fine-grained acoustic descriptors. Experiments show that SpeakerLLM-Base improves speaker-profile and recording-condition understanding over general audio-LLMs, while SpeakerLLM-VR preserves strong generated-verdict accuracy and produces decision traces grounded in the supervised verification reasoning schema. We will release the metadata-enriched supervision dataset and target-construction code for reproducibility.


翻译:随着音频优先智能体在物理AI、对话机器人及无屏可穿戴设备中日益普及,音频大语言模型需整合说话人特异性理解能力,以支持用户授权、个性化定制及上下文感知交互。这要求模型能够识别说话人身份、理解语音声学特征,并分析录音条件对说话人线索的影响。传统说话人验证系统虽能生成强判别性标量分数,但缺乏语言解释能力;现有音频-大语言模型及说话人感知语言模型在组织说话人信息时,仍局限于二元标签或描述性轮廓。本文提出SpeakerLLM——一种说话人专用的音频-大语言模型框架,它将单语句说话人轮廓建模、录音条件理解、语句对说话人比较及基于证据的验证推理统一于自然语言接口之中。我们构建了验证推理目标与决策组合策略,将轮廓级证据与最终"同源/异源"判别分离,并组织录音条件、轮廓证据及最终决策形成结构化推演链。核心创新在于层次化说话人分词器,该分词器可捕获多粒度说话人证据:语句级说话人嵌入总结身份与轮廓线索,而帧级说话人特征保留细粒度声学描述符。实验表明,SpeakerLLM-Base在说话人轮廓与录音条件理解任务上优于通用音频-大语言模型,而SpeakerLLM-VR在保持生成判断准确性的同时,能产生基于监督验证推理模式的决策推演链。为保障可复现性,我们将发布携带元数据的监督数据集及目标构建代码。

0
下载
关闭预览

相关内容

《语音大语言模型》最新进展综述
专知会员服务
58+阅读 · 2024年10月8日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
【ChatGPT系列报告】AI大语言模型的原理、演进及算力测算
专知会员服务
151+阅读 · 2023年4月26日
大模型推动的人机交互对话
专知会员服务
136+阅读 · 2023年1月15日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
专知会员服务
38+阅读 · 2021年5月21日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
SMP 2019 第三届中文人机对话技术评测顺利落幕
哈工大SCIR
12+阅读 · 2019年8月19日
NLP实践:对话系统技术原理和应用
AI100
34+阅读 · 2019年3月20日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关VIP内容
《语音大语言模型》最新进展综述
专知会员服务
58+阅读 · 2024年10月8日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
【ChatGPT系列报告】AI大语言模型的原理、演进及算力测算
专知会员服务
151+阅读 · 2023年4月26日
大模型推动的人机交互对话
专知会员服务
136+阅读 · 2023年1月15日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
专知会员服务
38+阅读 · 2021年5月21日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员