RoLegalGEC: Legal Domain Grammatical Error Detection and Correction Dataset for Romanian - 专知论文

会员服务 ·

0

法律 · 数据集 · 错误检测 · 标注 · 工具 ·

RoLegalGEC: Legal Domain Grammatical Error Detection and Correction Dataset for Romanian

翻译：RoLegalGEC：面向罗马尼亚语法律领域的语法错误检测与校正数据集

Mircea Timpuriu,Mihaela-Claudia Cercel,Dumitru-Clementin Cercel

The importance of clear and correct text in legal documents cannot be understated, and, consequently, a grammatical error correction tool meant to assist a professional in the law must have the ability to understand the possible errors in the context of a legal environment, correcting them accordingly, and implicitly needs to be trained in the same environment, using realistic legal data. However, the manually annotated data required by such a process is in short supply for languages such as Romanian, much less for a niche domain. The most common approach is the synthetic generation of parallel data; however, it requires a structured understanding of the Romanian grammar. In this paper, we introduce, to our knowledge, the first Romanian-language parallel dataset for the detection and correction of grammatical errors in the legal domain, RoLegalGEC, which aggregates 350,000 examples of errors in legal passages, along with error annotations. Moreover, we evaluate several neural network models that transform the dataset into a valuable tool for both detecting and correcting grammatical errors, including knowledge-distillation Transformers, sequence tagging architectures for detection, and a variety of pre-trained text-to-text Transformer models for correction. We consider that the set of models, together with the novel RoLegalGEC dataset, will enrich the resource base for further research on Romanian.

翻译：法律文件中文本的清晰与正确性至关重要，因此，旨在协助法律专业人士的语法错误校正工具必须能够理解法律语境中可能出现的错误并予以相应校正，且隐含要求其需在相同环境中使用真实的法律数据进行训练。然而，对于罗马尼亚语等语言而言，此类流程所需的人工标注数据严重匮乏，更遑论针对特定专业领域。合成生成平行数据是最常见的应对方法，但这需要对其语法有系统化的理解。在本文中，我们首次提出用于法律领域语法错误检测与校正的罗马尼亚语平行数据集——RoLegalGEC。该数据集汇集了35万个法律文本段落中的错误示例及其错误标注。此外，我们评估了多种神经网络模型，将本数据集转化为检测与校正语法错误的有力工具，包括知识蒸馏Transformer、用于错误检测的序列标注架构，以及多种预训练的文本到文本Transformer校正模型。我们相信，本模型集合与新颖的RoLegalGEC数据集将共同丰富罗马尼亚语后续研究的资源基础。

0

相关内容

法律是国家制定或认可的，由国家强制力保证实施的，以规定权利和义务为内容的具有普遍约束力的社会规范。

错误信息检测《对错误信息、宣传和谬论的综合注释进行稳健且可解释的识别》美军2023最新88页报告

错误信息检测《对错误信息、宣传和谬论的综合注释进行稳健且可解释的识别》美军2023最新88页报告

专知会员服务

30+阅读 · 2023年9月14日

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

专知会员服务

36+阅读 · 2022年9月6日

【AI+ 法律】2022最新博士论文《改进法律文本处理中的注意力神经网络》日本科学技术高等研究院

【AI+ 法律】2022最新博士论文《改进法律文本处理中的注意力神经网络》日本科学技术高等研究院

专知会员服务

19+阅读 · 2022年5月4日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

《人工智能面向机器学习的数据标注规程》国家标准意见稿

《人工智能面向机器学习的数据标注规程》国家标准意见稿

专知会员服务

117+阅读 · 2022年2月24日

最新《自然场景中文本检测与识别》综述论文，26页pdf

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

数据标注研究综述，软件学报，19页pdf

数据标注研究综述，软件学报，19页pdf

专知会员服务

96+阅读 · 2020年2月20日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

32+阅读 · 2020年1月11日

【ICCV 2019 Workshop】Complete Dictionary Learning via L4-Norm Maximization over the Orthogonal Grou，加州大学伯克利分校马毅

【ICCV 2019 Workshop】Complete Dictionary Learning via L4-Norm Maximization over the Orthogonal Grou，加州大学伯克利分校马毅

专知会员服务

16+阅读 · 2019年10月31日

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

【翻译技术速递】测评：免费的术语抽取工具

【翻译技术速递】测评：免费的术语抽取工具

翻译技术沙龙

139+阅读 · 2019年11月2日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

数据标注术语和规范国家标准出炉,你的写法符合规范么?

数据标注术语和规范国家标准出炉,你的写法符合规范么?

专知

17+阅读 · 2019年3月21日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

自然语言处理（NLP）数据集整理

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

AfrIFact: Cultural Information Retrieval, Evidence Extraction and Fact Checking for African Languages

Arxiv

0+阅读 · 4月29日

A Toolkit for Detecting Spurious Correlations in Speech Datasets

Arxiv

0+阅读 · 4月29日

ParseBench: A Document Parsing Benchmark for AI Agents

Arxiv

0+阅读 · 4月13日

ParseBench: A Document Parsing Benchmark for AI Agents

Arxiv

0+阅读 · 4月9日

Real-Time Cross-Layer Semantic Error Correction Using Language Models and Software-Defined Radio

Arxiv

0+阅读 · 4月9日

COBOLAssist: Analyzing and Fixing Compilation Errors for LLM-Powered COBOL Code Generation

Arxiv

0+阅读 · 4月5日

TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

Arxiv

0+阅读 · 3月26日

KuaiSearch: A Large-Scale E-Commerce Search Dataset for Recall, Ranking, and Relevance

Arxiv

0+阅读 · 3月24日

RubricRAG: Towards Interpretable and Reliable LLM Evaluation via Domain Knowledge Retrieval for Rubric Generation

Arxiv

0+阅读 · 3月21日

Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

4+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

5+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

7+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

9+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

7+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

6+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

3+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

5+阅读 · 7月25日

综述 | 遥感多模态大模型：领域专用还是通用模型？

综述 | 遥感多模态大模型：领域专用还是通用模型？

专知会员服务

5+阅读 · 7月25日

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

专知会员服务

5+阅读 · 7月25日

《决策模型比较研究》

《决策模型比较研究》

专知会员服务

12+阅读 · 7月25日

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

全球军事与武器工业中的人工智能：应用、方法与影响（万字长文）

专知会员服务

9+阅读 · 7月25日

《美军水下战与海床战概述及本地实施》

《美军水下战与海床战概述及本地实施》

专知会员服务

6+阅读 · 7月25日

面向未来冲突推进陆军情报体制改革

面向未来冲突推进陆军情报体制改革

专知会员服务

5+阅读 · 7月25日

人工智能赋能无人机：俄乌冲突案例及其深远影响（万字长文）

人工智能赋能无人机：俄乌冲突案例及其深远影响（万字长文）

专知会员服务

7+阅读 · 7月25日

相关VIP内容

错误信息检测《对错误信息、宣传和谬论的综合注释进行稳健且可解释的识别》美军2023最新88页报告

错误信息检测《对错误信息、宣传和谬论的综合注释进行稳健且可解释的识别》美军2023最新88页报告

专知会员服务

30+阅读 · 2023年9月14日

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

专知会员服务

36+阅读 · 2022年9月6日

【AI+ 法律】2022最新博士论文《改进法律文本处理中的注意力神经网络》日本科学技术高等研究院

【AI+ 法律】2022最新博士论文《改进法律文本处理中的注意力神经网络》日本科学技术高等研究院

专知会员服务

19+阅读 · 2022年5月4日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

《人工智能面向机器学习的数据标注规程》国家标准意见稿

《人工智能面向机器学习的数据标注规程》国家标准意见稿

专知会员服务

117+阅读 · 2022年2月24日

最新《自然场景中文本检测与识别》综述论文，26页pdf

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

数据标注研究综述，软件学报，19页pdf

数据标注研究综述，软件学报，19页pdf

专知会员服务

96+阅读 · 2020年2月20日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

32+阅读 · 2020年1月11日

【ICCV 2019 Workshop】Complete Dictionary Learning via L4-Norm Maximization over the Orthogonal Grou，加州大学伯克利分校马毅

【ICCV 2019 Workshop】Complete Dictionary Learning via L4-Norm Maximization over the Orthogonal Grou，加州大学伯克利分校马毅

专知会员服务

16+阅读 · 2019年10月31日

热门VIP内容

开通专知VIP会员享更多权益服务

ICM 2026 | 陶哲轩：人工智能时代的数学

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

ICML 2026 教程 | 数值优化理论还重要吗？

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

相关资讯

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

【翻译技术速递】测评：免费的术语抽取工具

【翻译技术速递】测评：免费的术语抽取工具

翻译技术沙龙

139+阅读 · 2019年11月2日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

数据标注术语和规范国家标准出炉,你的写法符合规范么?

数据标注术语和规范国家标准出炉,你的写法符合规范么?

专知

17+阅读 · 2019年3月21日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

自然语言处理（NLP）数据集整理

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

相关论文

AfrIFact: Cultural Information Retrieval, Evidence Extraction and Fact Checking for African Languages

Arxiv

0+阅读 · 4月29日

A Toolkit for Detecting Spurious Correlations in Speech Datasets

Arxiv

0+阅读 · 4月29日

ParseBench: A Document Parsing Benchmark for AI Agents

Arxiv

0+阅读 · 4月13日

ParseBench: A Document Parsing Benchmark for AI Agents

Arxiv

0+阅读 · 4月9日

Real-Time Cross-Layer Semantic Error Correction Using Language Models and Software-Defined Radio

Arxiv

0+阅读 · 4月9日

COBOLAssist: Analyzing and Fixing Compilation Errors for LLM-Powered COBOL Code Generation

Arxiv

0+阅读 · 4月5日

TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

Arxiv

0+阅读 · 3月26日

KuaiSearch: A Large-Scale E-Commerce Search Dataset for Recall, Ranking, and Relevance

Arxiv

0+阅读 · 3月24日

RubricRAG: Towards Interpretable and Reliable LLM Evaluation via Domain Knowledge Retrieval for Rubric Generation

Arxiv

0+阅读 · 3月21日

Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review

Arxiv

0+阅读 · 3月19日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员