SloPal：一个包含对齐语音与微调ASR模型的六千万词斯洛伐克议会语料库 (SloPal: A 60-Million-Word Slovak Parliamentary Corpus with Aligned Speech and Fine-Tuned ASR Models) - 专知论文

会员服务 ·

0

对齐 · 微调 · 语料 · 语料库 · 语音识别 ·

SloPal: A 60-Million-Word Slovak Parliamentary Corpus with Aligned Speech and Fine-Tuned ASR Models

翻译：SloPal：一个包含对齐语音与微调ASR模型的六千万词斯洛伐克议会语料库

Erik Božík,Marek Šuppa

from arxiv, LREC 2026

Slovak remains a low-resource language for automatic speech recognition (ASR), with fewer than 100 hours of publicly available training data. We present SloPal, a comprehensive Slovak parliamentary corpus comprising 330,000 speaker-segmented transcripts (66 million words, 220 million tokens) spanning 2001--2024, with rich metadata including speaker names, roles, and session information. From this collection, we derive SloPalSpeech, a 2,806-hour aligned speech dataset with segments up to 30 seconds, constructed using a language-agnostic anchor-based alignment pipeline and optimized for Whisper-based ASR training. Fine-tuning Whisper on SloPalSpeech reduces Word Error Rate (WER) by up to 70\%, with the fine-tuned small model (244M parameters) approaching base large-v3 (1.5B parameters) performance at 6$\times$ fewer parameters. We publicly release the SloPal text corpus, SloPalSpeech aligned audio, and four fine-tuned Whisper models at https://huggingface.co/collections/NaiveNeuron/slopal, providing the most comprehensive open Slovak parliamentary language resource to date.

翻译：斯洛伐克语在自动语音识别领域仍属低资源语言，公开可用的训练数据不足100小时。本文介绍SloPal——一个全面的斯洛伐克议会语料库，包含33万条说话人分段转录文本（6600万词，2.2亿标记），时间跨度为2001至2024年，并附有说话人姓名、角色及会议信息等丰富元数据。基于该文本集，我们构建了SloPalSpeech——一个2806小时的对齐语音数据集，其语音片段最长30秒，采用与语言无关的基于锚点的对齐流程构建，并针对基于Whisper的ASR训练进行了优化。在SloPalSpeech上微调Whisper模型可将词错误率降低高达70%，其中经微调的小型模型（2.44亿参数）在参数量减少6倍的情况下，性能接近基础large-v3模型（15亿参数）。我们公开发布了SloPal文本语料库、SloPalSpeech对齐音频及四个微调Whisper模型，发布地址为https://huggingface.co/collections/NaiveNeuron/slopal，提供了迄今为止最全面的开源斯洛伐克议会语言资源。

0

相关内容

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

专知会员服务

11+阅读 · 2025年6月23日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

涵盖大模型，斯坦福大学《语音与语言处理》最新版：NLP必读书籍，599页pdf

涵盖大模型，斯坦福大学《语音与语言处理》最新版：NLP必读书籍，599页pdf

专知会员服务

67+阅读 · 2024年3月24日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

语音如何自监督学习？306页ppt！李宏毅等INTERSPEECH2022《自监督表示学习语音处理》教程，附Slides与视频

语音如何自监督学习？306页ppt！李宏毅等INTERSPEECH2022《自监督表示学习语音处理》教程，附Slides与视频

专知会员服务

63+阅读 · 2022年9月19日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

专知会员服务

47+阅读 · 2022年2月25日

【谷歌Kelvin Guu】语言模型可以是知识库吗？，46页ppt

专知会员服务

27+阅读 · 2021年10月12日

关于聊天机器人，这里有一份中文聊天语料库资源

关于聊天机器人，这里有一份中文聊天语料库资源

AINLP

68+阅读 · 2019年4月4日

千万级中文公开免费聊天语料数据分享

千万级中文公开免费聊天语料数据分享

深度学习与NLP

17+阅读 · 2019年3月17日

收藏 | 中文公开聊天语料库及使用方法（附链接）

收藏 | 中文公开聊天语料库及使用方法（附链接）

THU数据派

10+阅读 · 2019年3月12日

中文公开聊天语料库

中文公开聊天语料库

专知

11+阅读 · 2019年3月9日

NLP Chinese Corpus：大规模中文自然语言处理语料

NLP Chinese Corpus：大规模中文自然语言处理语料

PaperWeekly

14+阅读 · 2019年2月18日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

NLP Chinese Corpus项目：大规模中文自然语言处理语料

NLP Chinese Corpus项目：大规模中文自然语言处理语料

AINLP

13+阅读 · 2019年2月11日

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

机器之心

22+阅读 · 2018年2月27日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向连续语音的哈萨克语关键词识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

PashtoCorp: A 1.25-Billion-Word Corpus, Evaluation Suite, and Reproducible Pipeline for Low-Resource Language Development

Arxiv

0+阅读 · 3月17日

SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction

SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction

Arxiv

0+阅读 · 3月16日

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

Arxiv

0+阅读 · 3月10日

Make It Hard to Hear, Easy to Learn: Long-Form Bengali ASR and Speaker Diarization via Extreme Augmentation and Perfect Alignment

Arxiv

0+阅读 · 2月26日

TurkicNLP: An NLP Toolkit for Turkic Languages

Arxiv

0+阅读 · 2月22日

Testimole-Conversational: A 30-Billion-Word Italian Discussion Board Corpus (1996-2024) for Language Modeling and Sociolinguistic Research

Arxiv

0+阅读 · 2月16日

Floe: Federated Specialization for Real-Time LLM-SLM Inference

Arxiv

0+阅读 · 2月15日

Speech-XL: Towards Long-Form Speech Understanding in Large Speech Language Models

Arxiv

0+阅读 · 2月5日

Approaches to Semantic Textual Similarity in Slovak Language: From Algorithms to Transformers

Arxiv

0+阅读 · 2月4日

LoPace: A Lossless Optimized Prompt Accurate Compression Engine for Large Language Model Applications

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

【剑桥博士论文】迈向高效、科学且普适的小语言模型开发之道

【剑桥博士论文】迈向高效、科学且普适的小语言模型开发之道

专知会员服务

0+阅读 · 今天14:26

从预训练模型到大语言模型：人工智能驱动的心理计算综述

从预训练模型到大语言模型：人工智能驱动的心理计算综述

专知会员服务

0+阅读 · 今天14:22

乌克兰-委内瑞拉-伊朗冲突：人工智能在现代军事行动中的飞速演进

乌克兰-委内瑞拉-伊朗冲突：人工智能在现代军事行动中的飞速演进

专知会员服务

3+阅读 · 今天12:11

《对信息环境分析实现人工智能预测冲突》96页

《对信息环境分析实现人工智能预测冲突》96页

专知会员服务

3+阅读 · 今天9:59

《面向海军应用的无人机网络安全仿真环境》

《面向海军应用的无人机网络安全仿真环境》

专知会员服务

4+阅读 · 今天9:41

乌克兰部署新型拦截型无人机应对“沙希德”式威胁

乌克兰部署新型拦截型无人机应对“沙希德”式威胁

专知会员服务

4+阅读 · 今天9:17

无人机与僵局：俄乌战争难以突破

无人机与僵局：俄乌战争难以突破

专知会员服务

3+阅读 · 今天9:02

《美国海岸警卫队研发中心2026财年研究项目计划》40页slides

《美国海岸警卫队研发中心2026财年研究项目计划》40页slides

专知会员服务

6+阅读 · 今天8:55

《控制对手感知：电子战愿景与赋能技术》

《控制对手感知：电子战愿景与赋能技术》

专知会员服务

6+阅读 · 今天8:51

【NTU博士论文】缓解视觉及视觉-语言模型中的捷径学习并提升分布外泛化能力

【NTU博士论文】缓解视觉及视觉-语言模型中的捷径学习并提升分布外泛化能力

专知会员服务

5+阅读 · 4月6日

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

10+阅读 · 4月6日

《评估杀伤力：陆军战斗力与兵力设计》最新45页报告

《评估杀伤力：陆军战斗力与兵力设计》最新45页报告

专知会员服务

13+阅读 · 4月6日

自主、人工智能与可消耗集群时代的海军情报

自主、人工智能与可消耗集群时代的海军情报

专知会员服务

8+阅读 · 4月6日

“史诗狂怒行动”中的海军动态

“史诗狂怒行动”中的海军动态

专知会员服务

10+阅读 · 4月5日

【博士论文】预训练语言模型中结构化叙事表示的解释性研究

【博士论文】预训练语言模型中结构化叙事表示的解释性研究

专知会员服务

11+阅读 · 4月5日

相关VIP内容

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

专知会员服务

11+阅读 · 2025年6月23日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

涵盖大模型，斯坦福大学《语音与语言处理》最新版：NLP必读书籍，599页pdf

涵盖大模型，斯坦福大学《语音与语言处理》最新版：NLP必读书籍，599页pdf

专知会员服务

67+阅读 · 2024年3月24日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

语音如何自监督学习？306页ppt！李宏毅等INTERSPEECH2022《自监督表示学习语音处理》教程，附Slides与视频

语音如何自监督学习？306页ppt！李宏毅等INTERSPEECH2022《自监督表示学习语音处理》教程，附Slides与视频

专知会员服务

63+阅读 · 2022年9月19日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

专知会员服务

47+阅读 · 2022年2月25日

【谷歌Kelvin Guu】语言模型可以是知识库吗？，46页ppt

专知会员服务

27+阅读 · 2021年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

从预训练模型到大语言模型：人工智能驱动的心理计算综述

《对信息环境分析实现人工智能预测冲突》96页

【剑桥博士论文】迈向高效、科学且普适的小语言模型开发之道

乌克兰-委内瑞拉-伊朗冲突：人工智能在现代军事行动中的飞速演进

相关资讯

关于聊天机器人，这里有一份中文聊天语料库资源

关于聊天机器人，这里有一份中文聊天语料库资源

AINLP

68+阅读 · 2019年4月4日

千万级中文公开免费聊天语料数据分享

千万级中文公开免费聊天语料数据分享

深度学习与NLP

17+阅读 · 2019年3月17日

收藏 | 中文公开聊天语料库及使用方法（附链接）

收藏 | 中文公开聊天语料库及使用方法（附链接）

THU数据派

10+阅读 · 2019年3月12日

中文公开聊天语料库

中文公开聊天语料库

专知

11+阅读 · 2019年3月9日

NLP Chinese Corpus：大规模中文自然语言处理语料

NLP Chinese Corpus：大规模中文自然语言处理语料

PaperWeekly

14+阅读 · 2019年2月18日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

NLP Chinese Corpus项目：大规模中文自然语言处理语料

NLP Chinese Corpus项目：大规模中文自然语言处理语料

AINLP

13+阅读 · 2019年2月11日

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

机器之心

22+阅读 · 2018年2月27日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

相关论文

PashtoCorp: A 1.25-Billion-Word Corpus, Evaluation Suite, and Reproducible Pipeline for Low-Resource Language Development

Arxiv

0+阅读 · 3月17日

SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction

SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction

Arxiv

0+阅读 · 3月16日

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

Arxiv

0+阅读 · 3月10日

Make It Hard to Hear, Easy to Learn: Long-Form Bengali ASR and Speaker Diarization via Extreme Augmentation and Perfect Alignment

Arxiv

0+阅读 · 2月26日

TurkicNLP: An NLP Toolkit for Turkic Languages

Arxiv

0+阅读 · 2月22日

Testimole-Conversational: A 30-Billion-Word Italian Discussion Board Corpus (1996-2024) for Language Modeling and Sociolinguistic Research

Arxiv

0+阅读 · 2月16日

Floe: Federated Specialization for Real-Time LLM-SLM Inference

Arxiv

0+阅读 · 2月15日

Speech-XL: Towards Long-Form Speech Understanding in Large Speech Language Models

Arxiv

0+阅读 · 2月5日

Approaches to Semantic Textual Similarity in Slovak Language: From Algorithms to Transformers

Arxiv

0+阅读 · 2月4日

LoPace: A Lossless Optimized Prompt Accurate Compression Engine for Large Language Model Applications

Arxiv

0+阅读 · 2月4日

相关基金

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向连续语音的哈萨克语关键词识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员