IHUBERT: Vector-Based Semantic Deduplication and Domain-Balanced Pretraining for Persian Resources - 专知论文

会员服务 ·

0

宏F1 · 命名实体识别 · 词元分析器 · 语言模型化 · MoDELS ·

IHUBERT: Vector-Based Semantic Deduplication and Domain-Balanced Pretraining for Persian Resources

翻译：暂无翻译

Arash Ghafouri,Mahdi Firouzmandi,Hossein Saberi,Mohammad Reza Hasani Ahangar

Persian pretrained language models (PLMs) are still limited by the scarcity of large-scale, high-quality pretraining corpora and by insufficient evaluation beyond standard classification and NER tasks. We present IHUBERT, a monolingual Persian PLM trained from scratch with the RoBERTa-base encoder (125M parameters) on a 45 GB curated subset of the Sepahr-Danesh collection (about 7-8B tokens). To improve corpus quality and reduce redundancy, we employ a multi-stage preprocessing pipeline that includes normalization, exact and near-duplicate removal, anonymization, and vector-database-based semantic deduplication for distribution balancing control across domains and registers. We additionally train a 139k-vocabulary BPE tokenizer on the full pretraining corpus to better capture Persian morphology and orthographic variation. IHUBERT is evaluated on seven Persian NLU benchmarks covering NER, sentiment analysis, topic classification, NLI, extractive question answering, and relation extraction, using task-standard metrics (entity-level F1, Macro-F1, EM/F1). IHUBERT achieves its strongest gains on extractive QA, ranking first on both PQuAD (F1 88.3542) and ParsiNLU-RC (F1 49.0987), and attains the best result on FarsTail (Macro-F1 0.8350). On NER and topic classification, it remains competitive (e.g., 0.8308 F1 on ParsTwiNER; 0.7953 Macro-F1 on DigiMag), while relation extraction remains the main remaining gap (0.6684 Macro-F1 on PERLEX). A controlled tokenizer ablation on the IHUBERT pretraining corpus shows that BPE yields slightly lower subword fragmentation than WordPiece at matched vocabulary size, supporting our tokenization design. Overall, IHUBERT advances Persian language modeling through semantically curated large-scale pretraining and broad evaluation across both classification and comprehension-oriented tasks.

翻译：暂无翻译

0

相关内容

宏F1

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

PEFT A2Z：大型语言与视觉模型的参数高效微调综述

PEFT A2Z：大型语言与视觉模型的参数高效微调综述

专知会员服务

22+阅读 · 2025年4月22日

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

专知会员服务

20+阅读 · 2024年9月3日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

[ACL2023]领域适配器混合：将领域知识解耦并注入到预训练语言模型的记忆中

[ACL2023]领域适配器混合：将领域知识解耦并注入到预训练语言模型的记忆中

专知会员服务

33+阅读 · 2023年6月11日

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

专知会员服务

50+阅读 · 2022年4月8日

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

专知会员服务

43+阅读 · 2022年3月25日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

稀疏大模型简述：从MoE、Sparse Attention到GLaM

稀疏大模型简述：从MoE、Sparse Attention到GLaM

夕小瑶的卖萌屋

14+阅读 · 2022年3月22日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

Perseus-BERT——业内性能极致优化的BERT训练方案

Perseus-BERT——业内性能极致优化的BERT训练方案

云栖社区

15+阅读 · 2019年2月20日

重构 Palantir 数据模型

重构 Palantir 数据模型

待字闺中

34+阅读 · 2018年12月27日

《pyramid Attention Network for Semantic Segmentation》

《pyramid Attention Network for Semantic Segmentation》

统计学习与视觉计算组

44+阅读 · 2018年8月30日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

专知

12+阅读 · 2018年5月6日

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

中国科学院自动化研究所

15+阅读 · 2018年1月23日

基于贝叶斯统计的遥感影像在轨特征提取与压缩传输

国家自然科学基金

0+阅读 · 2015年12月31日

一类大规模实对称锥规划算法

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自调进度稀疏表示的人脸识别算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

BOT项目超额收入分配及补贴决策模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

环氧树脂基交联网络微观结构调控及其热致形状记忆构效关系

国家自然科学基金

0+阅读 · 2014年12月31日

基于VMI-Hub的装配系统协同补货决策模型与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Reasoning as Attractor Dynamics: Latent Memory Retrieval via Gibbs-Weighted Energy Minimization

Arxiv

0+阅读 · 6月23日

Measuring Behavior Portability in Large Language Models

Arxiv

0+阅读 · 6月22日

Sparse Neuron Ablation Triggers Catastrophic Collapse of the Language Core in Large Vision-Language Models

Arxiv

0+阅读 · 6月20日

Spectral Query-Key Product Weight Steering for Training-Free VLM Hallucination Mitigation

Arxiv

0+阅读 · 6月18日

A Systematic Evaluation of Black-Box Uncertainty Estimation Methods for Large Language Models

Arxiv

0+阅读 · 6月18日

Be Your Own Teacher: Steering Protein Language Models via Unsupervised Reward Optimization

Arxiv

0+阅读 · 6月17日

Moving Beyond Diversity: Visual Token Pruning as Subspace Reconstruction for Efficient VLMs

Arxiv

0+阅读 · 6月17日

A Survey of Knowledge-Enhanced Pre-trained Language Models

Arxiv

18+阅读 · 2022年11月17日

From Dense to Sparse: Contrastive Pruning for Better Pre-trained Language Model Compression

Arxiv

10+阅读 · 2021年12月14日

Pre-trained Language Models in Biomedical Domain: A Systematic Survey

Arxiv

10+阅读 · 2021年10月12日

VIP会员

文章信息

相关主题

命名实体识别

词元分析器

语言模型化

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

2+阅读 · 今天11:43

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

2+阅读 · 今天11:41

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

5+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

5+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

6+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

6+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

7+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

7+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

7+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

5+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

7+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

10+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

9+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

9+阅读 · 6月24日

相关VIP内容

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

PEFT A2Z：大型语言与视觉模型的参数高效微调综述

PEFT A2Z：大型语言与视觉模型的参数高效微调综述

专知会员服务

22+阅读 · 2025年4月22日

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

专知会员服务

20+阅读 · 2024年9月3日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

[ACL2023]领域适配器混合：将领域知识解耦并注入到预训练语言模型的记忆中

[ACL2023]领域适配器混合：将领域知识解耦并注入到预训练语言模型的记忆中

专知会员服务

33+阅读 · 2023年6月11日

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

专知会员服务

50+阅读 · 2022年4月8日

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

专知会员服务

43+阅读 · 2022年3月25日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

稀疏大模型简述：从MoE、Sparse Attention到GLaM

稀疏大模型简述：从MoE、Sparse Attention到GLaM

夕小瑶的卖萌屋

14+阅读 · 2022年3月22日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

Perseus-BERT——业内性能极致优化的BERT训练方案

Perseus-BERT——业内性能极致优化的BERT训练方案

云栖社区

15+阅读 · 2019年2月20日

重构 Palantir 数据模型

重构 Palantir 数据模型

待字闺中

34+阅读 · 2018年12月27日

《pyramid Attention Network for Semantic Segmentation》

《pyramid Attention Network for Semantic Segmentation》

统计学习与视觉计算组

44+阅读 · 2018年8月30日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

专知

12+阅读 · 2018年5月6日

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

【AAAI专题】论文分享：以生物可塑性为核心的类脑脉冲神经网络

中国科学院自动化研究所

15+阅读 · 2018年1月23日

相关论文

Reasoning as Attractor Dynamics: Latent Memory Retrieval via Gibbs-Weighted Energy Minimization

Arxiv

0+阅读 · 6月23日

Measuring Behavior Portability in Large Language Models

Arxiv

0+阅读 · 6月22日

Sparse Neuron Ablation Triggers Catastrophic Collapse of the Language Core in Large Vision-Language Models

Arxiv

0+阅读 · 6月20日

Spectral Query-Key Product Weight Steering for Training-Free VLM Hallucination Mitigation

Arxiv

0+阅读 · 6月18日

A Systematic Evaluation of Black-Box Uncertainty Estimation Methods for Large Language Models

Arxiv

0+阅读 · 6月18日

Be Your Own Teacher: Steering Protein Language Models via Unsupervised Reward Optimization

Arxiv

0+阅读 · 6月17日

Moving Beyond Diversity: Visual Token Pruning as Subspace Reconstruction for Efficient VLMs

Arxiv

0+阅读 · 6月17日

A Survey of Knowledge-Enhanced Pre-trained Language Models

Arxiv

18+阅读 · 2022年11月17日

From Dense to Sparse: Contrastive Pruning for Better Pre-trained Language Model Compression

Arxiv

10+阅读 · 2021年12月14日

Pre-trained Language Models in Biomedical Domain: A Systematic Survey

Arxiv

10+阅读 · 2021年10月12日

相关基金

基于贝叶斯统计的遥感影像在轨特征提取与压缩传输

国家自然科学基金

0+阅读 · 2015年12月31日

一类大规模实对称锥规划算法

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自调进度稀疏表示的人脸识别算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

BOT项目超额收入分配及补贴决策模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

环氧树脂基交联网络微观结构调控及其热致形状记忆构效关系

国家自然科学基金

0+阅读 · 2014年12月31日

基于VMI-Hub的装配系统协同补货决策模型与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员