Classifying legal documents is a challenge, besides their specialized vocabulary, sometimes they can be very long. This means that feeding full documents to a Transformers-based models for classification might be impossible, expensive or slow. Thus, we present a legal document classifier based on DeBERTa V3 and a LSTM, that uses as input a collection of 48 randomly-selected short chunks (max 128 tokens). Besides, we present its deployment pipeline using Temporal, a durable execution solution, which allow us to have a reliable and robust processing workflow. The best model had a weighted F-score of 0.898, while the pipeline running on CPU had a processing median time of 498 seconds per 100 files.


翻译:法律文档分类是一项挑战,除了其专业词汇外,有时文档篇幅可能非常冗长。这意味着将完整文档输入基于Transformer的模型进行分类可能无法实现、成本高昂或速度缓慢。因此,我们提出了一种基于DeBERTa V3和LSTM的法律文档分类器,其输入为48个随机选取的短片段(最大128个词元)。此外,我们介绍了使用Temporal(一种持久化执行解决方案)的部署流程,该方案使我们能够建立可靠且稳健的处理工作流。最佳模型的加权F分数达到0.898,而在CPU上运行的流程每处理100个文件的中位时间为498秒。

0
下载
关闭预览

相关内容

法律是国家制定或认可的,由国家强制力保证实施的,以规定权利和义务为内容的具有普遍约束力的社会规范。
图基础模型:全面综述
专知会员服务
36+阅读 · 2025年5月22日
【AAAI2022】跨域少样本图分类
专知会员服务
30+阅读 · 2022年1月22日
【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索
专知会员服务
14+阅读 · 2021年2月25日
【Mila】通用表示Transformer少样本图像分类
专知会员服务
33+阅读 · 2020年9月7日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
图基础模型:全面综述
专知会员服务
36+阅读 · 2025年5月22日
【AAAI2022】跨域少样本图分类
专知会员服务
30+阅读 · 2022年1月22日
【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索
专知会员服务
14+阅读 · 2021年2月25日
【Mila】通用表示Transformer少样本图像分类
专知会员服务
33+阅读 · 2020年9月7日
相关资讯
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员