Text-Dependent Speaker Verification (TdSV) Challenge 2024: Team Naive System Report - 专知论文

会员服务 ·

0

系统 · 适配 · 集成 · 数据集 · 报告 ·

Text-Dependent Speaker Verification (TdSV) Challenge 2024: Team Naive System Report

翻译：文本相关说话人确认（TdSV）挑战赛2024：团队朴素系统报告

Amir Mohammad Rostami,Pourya Jafarzadeh

This paper presents a system for the 2024 Text-Dependent Speaker Verification (TdSV) Challenge. The system achieved a Minimum Detection Cost Function (MinDCF) of 0.0461 and an Equal Error Rate (EER) of 1.3\%. Our approach focused on adapting existing state-of-the-art neural networks, ResNet-TDNN and NeXt-TDNN, originally trained on the VoxCeleb dataset. This strategy was chosen because of the limited challenge duration and the available resources at the time. In addition, we designed a lightweight and resource-efficient model, EfficientNet-A0, trained specifically on the challenge dataset to improve adaptation and strengthen the ensemble approach. Our system combines advanced neural architectures, extensive data augmentation, and optimised hyperparameters. These components helped achieve strong performance in text-dependent speaker verification. The results also demonstrate the effectiveness of multi-model ensemble learning for both speaker and phrase verification.

翻译：本文介绍了面向2024年文本相关说话人确认（TdSV）挑战赛的系统方案。该系统实现了最小检测代价函数（MinDCF）0.0461和等错误率（EER）1.3%。考虑到挑战赛周期有限及当时可用资源，我们的方法聚焦于对预先在VoxCeleb数据集上训练的现有最优神经网络——ResNet-TDNN和NeXt-TDNN——进行适配调整。此外，我们设计了一个轻量级且资源高效的模型EfficientNet-A0，专门基于挑战赛数据集进行训练，以提升适配能力并增强集成方案。系统融合了先进神经架构、广泛数据增强技术及优化超参数，这些组件共同助力在文本相关说话人确认任务中取得优异表现。实验结果同时表明，多模型集成学习在说话人与短语验证两方面均具有效性。

0

相关内容

《美国国防部（DoD）人工智能赋能系统研制试验与鉴定指南手册》2025最新152页

《美国国防部（DoD）人工智能赋能系统研制试验与鉴定指南手册》2025最新152页

专知会员服务

64+阅读 · 2025年4月23日

IJCAI 2024最佳：CV领域论文录取率仅8%，杰出论文奖公布！

IJCAI 2024最佳：CV领域论文录取率仅8%，杰出论文奖公布！

专知会员服务

22+阅读 · 2024年8月8日

[ICML2024] Spotlight|DAT：通过交互式注意力实现统一的多粒度文本检测

[ICML2024] Spotlight|DAT：通过交互式注意力实现统一的多粒度文本检测

专知会员服务

19+阅读 · 2024年6月26日

《个人因素对精英射手目标交战和决策射击表现的影响》2023最新63页报告

《个人因素对精英射手目标交战和决策射击表现的影响》2023最新63页报告

专知会员服务

22+阅读 · 2023年9月26日

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

专知会员服务

21+阅读 · 2023年7月25日

《机器人语言》美陆军5年项目46页技术总结报告，2023年

《机器人语言》美陆军5年项目46页技术总结报告，2023年

专知会员服务

41+阅读 · 2023年5月17日

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

专知会员服务

53+阅读 · 2022年2月28日

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

专知会员服务

19+阅读 · 2021年11月28日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

专知

11+阅读 · 2021年3月9日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

AI Challenger 2018 冠军代码分享---细粒度情感分析赛道

AI Challenger 2018 冠军代码分享---细粒度情感分析赛道

AINLP

36+阅读 · 2018年12月21日

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AINLP

22+阅读 · 2018年12月3日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多特征融合的视频足球比赛中的团队行为识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于TSV的3D芯片“绑定中测试”关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

认知战术网络系统行为建模仿真研究

国家自然科学基金

43+阅读 · 2012年12月31日

NTIRE 2024 Challenge on Image Super-Resolution (x4): Methods and Results

Arxiv

0+阅读 · 6月16日

Stabilizing Short Duration Speaker Verification through Neural Re-scoring with Hybrid Enrollment

Arxiv

0+阅读 · 6月15日

ttda704 at SemEval-2026 Task 4: Modeling Narrative Structures via Pseudonymization and Multi-View Sentence Alignment

Arxiv

0+阅读 · 6月14日

The 1st PortraitCraft Challenge: A CVPR 2026 Workshop Competition on Portrait Composition Understanding and Generation

Arxiv

0+阅读 · 6月9日

Overview of ESDD2: Environment-Aware Speech and Sound Deepfake Detection Challenge

Arxiv

0+阅读 · 6月9日

SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification

Arxiv

0+阅读 · 6月3日

TED-TTS: Training-Free Intra-Utterance Emotion and Duration Control for Text-to-Speech Synthesis

Arxiv

0+阅读 · 5月17日

AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge

Arxiv

0+阅读 · 5月15日

Caraman at SemEval-2026 Task 8: Three-Stage Multi-Turn Retrieval with Query Rewriting, Hybrid Search, and Cross-Encoder Reranking

Arxiv

0+阅读 · 5月12日

SpotIt+: Verification-based Text-to-SQL Evaluation with Database Constraints

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

6+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

4+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

6+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

5+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

5+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

8+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《美国国防部（DoD）人工智能赋能系统研制试验与鉴定指南手册》2025最新152页

《美国国防部（DoD）人工智能赋能系统研制试验与鉴定指南手册》2025最新152页

专知会员服务

64+阅读 · 2025年4月23日

IJCAI 2024最佳：CV领域论文录取率仅8%，杰出论文奖公布！

IJCAI 2024最佳：CV领域论文录取率仅8%，杰出论文奖公布！

专知会员服务

22+阅读 · 2024年8月8日

[ICML2024] Spotlight|DAT：通过交互式注意力实现统一的多粒度文本检测

[ICML2024] Spotlight|DAT：通过交互式注意力实现统一的多粒度文本检测

专知会员服务

19+阅读 · 2024年6月26日

《个人因素对精英射手目标交战和决策射击表现的影响》2023最新63页报告

《个人因素对精英射手目标交战和决策射击表现的影响》2023最新63页报告

专知会员服务

22+阅读 · 2023年9月26日

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

专知会员服务

21+阅读 · 2023年7月25日

《机器人语言》美陆军5年项目46页技术总结报告，2023年

《机器人语言》美陆军5年项目46页技术总结报告，2023年

专知会员服务

41+阅读 · 2023年5月17日

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

AAAI2022最新「预训练语言表示」报告，300页PPT阐述预训练文本挖掘进展

专知会员服务

53+阅读 · 2022年2月28日

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

专知会员服务

19+阅读 · 2021年11月28日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

17+阅读 · 2021年10月17日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

【WSDM2021-Tutorial】偏见感知推荐系统的进展，134页ppt

专知

11+阅读 · 2021年3月9日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

AI Challenger 2018 冠军代码分享---细粒度情感分析赛道

AI Challenger 2018 冠军代码分享---细粒度情感分析赛道

AINLP

36+阅读 · 2018年12月21日

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AINLP

22+阅读 · 2018年12月3日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

相关论文

NTIRE 2024 Challenge on Image Super-Resolution (x4): Methods and Results

Arxiv

0+阅读 · 6月16日

Stabilizing Short Duration Speaker Verification through Neural Re-scoring with Hybrid Enrollment

Arxiv

0+阅读 · 6月15日

ttda704 at SemEval-2026 Task 4: Modeling Narrative Structures via Pseudonymization and Multi-View Sentence Alignment

Arxiv

0+阅读 · 6月14日

The 1st PortraitCraft Challenge: A CVPR 2026 Workshop Competition on Portrait Composition Understanding and Generation

Arxiv

0+阅读 · 6月9日

Overview of ESDD2: Environment-Aware Speech and Sound Deepfake Detection Challenge

Arxiv

0+阅读 · 6月9日

SpeakerCard-1M: An Evidence-Grounded Speaker Card Corpus for In-the-Wild Speaker Verification

Arxiv

0+阅读 · 6月3日

TED-TTS: Training-Free Intra-Utterance Emotion and Duration Control for Text-to-Speech Synthesis

Arxiv

0+阅读 · 5月17日

AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge

Arxiv

0+阅读 · 5月15日

Caraman at SemEval-2026 Task 8: Three-Stage Multi-Turn Retrieval with Query Rewriting, Hybrid Search, and Cross-Encoder Reranking

Arxiv

0+阅读 · 5月12日

SpotIt+: Verification-based Text-to-SQL Evaluation with Database Constraints

Arxiv

0+阅读 · 5月11日

相关基金

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

定位系统细胞启发的机器人情景认知地图构建与行为规划研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多特征融合的视频足球比赛中的团队行为识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于TSV的3D芯片“绑定中测试”关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

认知战术网络系统行为建模仿真研究

国家自然科学基金

43+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员