Diacritics restoration in Hebrew is a fundamental task for ensuring accurate word pronunciation and disambiguating textual meaning. Despite the language's high degree of ambiguity when unvocalized, recent machine learning approaches have significantly advanced performance on this task. In this work, we present DiVRit, a novel system for Hebrew diacritization that frames the task as a zero-shot classification problem. Our approach operates at the word level, selecting the most appropriate diacritization pattern for each undiacritized word from a dynamically generated candidate set, conditioned on the surrounding textual context. A key innovation of DiVRit is its use of a Hebrew Visual Language Model to process diacritized candidates as images, allowing diacritic information to be embedded directly within their vector representations while the surrounding context remains tokenization-based. Through a comprehensive evaluation across various configurations, we demonstrate that the system effectively performs diacritization without relying on complex, explicit linguistic analysis. Notably, in an ``oracle'' setting where the correct diacritized form is guaranteed to be among the provided candidates, DiVRit achieves a high level of accuracy. Furthermore, strategic architectural enhancements and optimized training methodologies yield significant improvements in the system's overall generalization capabilities. These findings highlight the promising potential of visual representations for accurate and automated Hebrew diacritization.


翻译:希伯来语变音符恢复是确保单词发音准确性和消除文本歧义的基础任务。尽管该语言在非元音化状态下存在高度歧义性,但近期的机器学习方法已显著提升了此任务的性能表现。本文提出DiVRit,一种新颖的希伯来语变音符标注系统,将任务构建为零样本分类问题。该方法在词级别进行操作,根据周围文本语境从动态生成的候选集中为每个未标注变音符的单词选择最合适的变音符模式。DiVRit的核心创新在于使用希伯来语视觉语言模型将带变音符的候选词作为图像处理,使得变音符信息能直接嵌入其向量表示中,而周围语境仍保持基于分词的处理方式。通过对多种配置的综合评估,我们证明该系统能够在不依赖复杂显式语言分析的情况下有效执行变音符标注。值得注意的是,在“预言机”设置(确保正确变音符形式存在于给定候选集中)下,DiVRit实现了高精度水平。此外,通过策略性架构增强和优化的训练方法,系统的整体泛化能力得到显著提升。这些发现凸显了视觉表示在实现准确自动化希伯来语变音符标注方面的巨大潜力。

0
下载
关闭预览

相关内容

【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
「视觉语言Transformers」最新2023研究综述
专知会员服务
83+阅读 · 2023年7月16日
专知会员服务
10+阅读 · 2021年7月28日
用Attention玩转CV,一文总览自注意力语义分割进展
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
从 Word Embedding 到 Bert:一起肢解 Bert!
人工智能头条
17+阅读 · 2018年12月11日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
10+阅读 · 2018年1月8日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
高效视频扩散模型:进展与挑战
专知会员服务
0+阅读 · 今天13:34
乌克兰前线的五项创新
专知会员服务
4+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
3+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
3+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
3+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
12+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
6+阅读 · 4月19日
相关VIP内容
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
「视觉语言Transformers」最新2023研究综述
专知会员服务
83+阅读 · 2023年7月16日
专知会员服务
10+阅读 · 2021年7月28日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员