Advantages of Domain Knowledge Injection for Legal Document Summarization: A Case Study on Summarizing Indian Court Judgments in English and Hindi - 专知论文

会员服务 ·

0

法律 · 领域知识 · 知识 · 文档摘要 · 预训练 ·

Advantages of Domain Knowledge Injection for Legal Document Summarization: A Case Study on Summarizing Indian Court Judgments in English and Hindi

翻译：领域知识注入在法律文档摘要中的优势：以英语和印地语印度法庭判决摘要为例

Debtanu Datta,Rajdeep Mukherjee,Adrijit Goswami,Saptarshi Ghosh

from arxiv, 19 pages, 5 figures, 8 tables

Summarizing Indian legal court judgments is a complex task not only due to the intricate language and unstructured nature of the legal texts, but also since a large section of the Indian population does not understand the complex English in which legal text is written, thus requiring summaries in Indian languages. In this study, we aim to improve the summarization of Indian legal text to generate summaries in both English and Hindi (the most widely spoken Indian language), by injecting domain knowledge into diverse summarization models. We propose a framework to enhance extractive neural summarization models by incorporating domain-specific pre-trained encoders tailored for legal texts. Further, we explore the injection of legal domain knowledge into generative models (including Large Language Models) through continual pre-training on large legal corpora in English and Hindi. Our proposed approaches achieve statistically significant improvements in both English-to-English and English-to-Hindi Indian legal document summarization, as measured by standard evaluation metrics, factual consistency metrics, and legal domain-specific metrics. Furthermore, these improvements are validated through domain experts, demonstrating the effectiveness of our approaches.

翻译：摘要：印度法律法庭判决的摘要任务十分复杂，这不仅源于法律文本语言的复杂性和非结构化特性，还因为印度大部分人口无法理解撰写法律文本所使用的复杂英语，因此需要提供印度语言版本的摘要。在本研究中，我们旨在通过向多种摘要模型注入领域知识，改进印度法律文本的摘要生成，以同时产生英语和印地语（印度使用最广泛的语言）摘要。我们提出了一个框架，通过整合针对法律文本定制的领域特定预训练编码器，来增强抽取式神经摘要模型。此外，我们还探索了通过在大型英语和印地语法律语料库上进行持续预训练，将法律领域知识注入生成式模型（包括大型语言模型）。我们提出的方法在英语到英语以及英语到印地语的印度法律文档摘要任务中，均取得了统计学上显著的改进，这通过标准评估指标、事实一致性指标以及法律领域特定指标得以衡量。此外，这些改进得到了领域专家的验证，证明了我们方法的有效性。

0

相关内容

法律是国家制定或认可的，由国家强制力保证实施的，以规定权利和义务为内容的具有普遍约束力的社会规范。

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

专知会员服务

35+阅读 · 2022年9月6日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

【AI+ 法律】2022最新博士论文《改进法律文本处理中的注意力神经网络》日本科学技术高等研究院

【AI+ 法律】2022最新博士论文《改进法律文本处理中的注意力神经网络》日本科学技术高等研究院

专知会员服务

19+阅读 · 2022年5月4日

AI如何用于法律？里斯本等学者最新《人工智能法律应用》全面阐述深度法律文本分析

AI如何用于法律？里斯本等学者最新《人工智能法律应用》全面阐述深度法律文本分析

专知会员服务

64+阅读 · 2022年4月25日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

140+阅读 · 2020年7月10日

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

专知会员服务

23+阅读 · 2020年4月22日

【微软】利用知识图谱提高抽象摘要的事实正确性，Boosting Factual Correctness

专知会员服务

18+阅读 · 2020年3月23日

综述：NLP中的深度学习优势，附21页论文下载

专知会员服务

104+阅读 · 2020年3月12日

【AAAI2020接受论文】利用图卷积网络将知识注入文本任务，Infusing Knowledge into the Textual Entailment Task Using Graph Convolutional Networks

【AAAI2020接受论文】利用图卷积网络将知识注入文本任务，Infusing Knowledge into the Textual Entailment Task Using Graph Convolutional Networks

专知会员服务

45+阅读 · 2019年11月11日

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

专知

32+阅读 · 2022年4月28日

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

专知

59+阅读 · 2020年8月6日

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

专知

12+阅读 · 2019年10月13日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

赛尔原创 | 文本摘要简述

赛尔原创 | 文本摘要简述

哈工大SCIR

22+阅读 · 2019年3月25日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

Word2Vec与Glove：词嵌入方法的动机和直觉

Word2Vec与Glove：词嵌入方法的动机和直觉

论智

14+阅读 · 2018年6月23日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

LEXA: Legal Case Retrieval via Graph Contrastive Learning with Contextualised LLM Embeddings

Arxiv

0+阅读 · 3月5日

Leverage Knowledge Graph and Large Language Model for Law Article Recommendation: A Case Study of Chinese Criminal Law

Arxiv

0+阅读 · 3月3日

LexChronos: An Agentic Framework for Structured Event Timeline Extraction in Indian Jurisprudence

Arxiv

0+阅读 · 3月2日

Vichara: Appellate Judgment Prediction and Explanation for the Indian Judicial System

Arxiv

0+阅读 · 2月20日

Text summarization via global structure awareness

Arxiv

0+阅读 · 2月11日

Reason to Retrieve: Enhancing Query Understanding through Decomposition and Interpretation

Arxiv

0+阅读 · 2月10日

Legal$Δ$: Enhancing Legal Reasoning in LLMs via Reinforcement Learning with Chain-of-Thought Guided Information Gain

Arxiv

0+阅读 · 2月9日

Long-Context Long-Form Question Answering for Legal Domain

Arxiv

0+阅读 · 2月6日

Grammatical Error Correction for Low-Resource Languages: The Case of Zarma

Grammatical Error Correction for Low-Resource Languages: The Case of Zarma

Arxiv

0+阅读 · 2月4日

From Prompt to Graph: Comparing LLM-Based Information Extraction Strategies in Domain-Specific Ontology Development

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

1+阅读 · 今天14:48

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

1+阅读 · 今天14:38

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

7+阅读 · 今天8:46

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

5+阅读 · 今天7:41

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

3+阅读 · 今天7:22

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

8+阅读 · 今天6:04

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

9+阅读 · 今天5:37

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

7+阅读 · 今天5:35

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

3+阅读 · 今天5:24

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

3+阅读 · 今天5:18

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

3+阅读 · 今天3:25

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

17+阅读 · 今天2:55

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

4+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

5+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

5+阅读 · 4月23日

相关VIP内容

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

专知会员服务

35+阅读 · 2022年9月6日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

【AI+ 法律】2022最新博士论文《改进法律文本处理中的注意力神经网络》日本科学技术高等研究院

【AI+ 法律】2022最新博士论文《改进法律文本处理中的注意力神经网络》日本科学技术高等研究院

专知会员服务

19+阅读 · 2022年5月4日

AI如何用于法律？里斯本等学者最新《人工智能法律应用》全面阐述深度法律文本分析

AI如何用于法律？里斯本等学者最新《人工智能法律应用》全面阐述深度法律文本分析

专知会员服务

64+阅读 · 2022年4月25日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

140+阅读 · 2020年7月10日

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

专知会员服务

23+阅读 · 2020年4月22日

【微软】利用知识图谱提高抽象摘要的事实正确性，Boosting Factual Correctness

专知会员服务

18+阅读 · 2020年3月23日

综述：NLP中的深度学习优势，附21页论文下载

专知会员服务

104+阅读 · 2020年3月12日

【AAAI2020接受论文】利用图卷积网络将知识注入文本任务，Infusing Knowledge into the Textual Entailment Task Using Graph Convolutional Networks

【AAAI2020接受论文】利用图卷积网络将知识注入文本任务，Infusing Knowledge into the Textual Entailment Task Using Graph Convolutional Networks

专知会员服务

45+阅读 · 2019年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

战场之外的较量：美伊冲突中的认知战与心理博弈

【NTU博士论文】3D人体动作生成

以色列军事技术对美国军力发展的持续性赋能

相关资讯

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

专知

32+阅读 · 2022年4月28日

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

专知

59+阅读 · 2020年8月6日

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

专知

12+阅读 · 2019年10月13日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

赛尔原创 | 文本摘要简述

赛尔原创 | 文本摘要简述

哈工大SCIR

22+阅读 · 2019年3月25日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

Word2Vec与Glove：词嵌入方法的动机和直觉

Word2Vec与Glove：词嵌入方法的动机和直觉

论智

14+阅读 · 2018年6月23日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

相关论文

LEXA: Legal Case Retrieval via Graph Contrastive Learning with Contextualised LLM Embeddings

Arxiv

0+阅读 · 3月5日

Leverage Knowledge Graph and Large Language Model for Law Article Recommendation: A Case Study of Chinese Criminal Law

Arxiv

0+阅读 · 3月3日

LexChronos: An Agentic Framework for Structured Event Timeline Extraction in Indian Jurisprudence

Arxiv

0+阅读 · 3月2日

Vichara: Appellate Judgment Prediction and Explanation for the Indian Judicial System

Arxiv

0+阅读 · 2月20日

Text summarization via global structure awareness

Arxiv

0+阅读 · 2月11日

Reason to Retrieve: Enhancing Query Understanding through Decomposition and Interpretation

Arxiv

0+阅读 · 2月10日

Legal$Δ$: Enhancing Legal Reasoning in LLMs via Reinforcement Learning with Chain-of-Thought Guided Information Gain

Arxiv

0+阅读 · 2月9日

Long-Context Long-Form Question Answering for Legal Domain

Arxiv

0+阅读 · 2月6日

Grammatical Error Correction for Low-Resource Languages: The Case of Zarma

Grammatical Error Correction for Low-Resource Languages: The Case of Zarma

Arxiv

0+阅读 · 2月4日

From Prompt to Graph: Comparing LLM-Based Information Extraction Strategies in Domain-Specific Ontology Development

Arxiv

0+阅读 · 1月31日

相关基金

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员