JUÁ - A Benchmark for Information Retrieval in Brazilian Legal Text Collections - 专知论文

会员服务 ·

0

法律 · 基准 · 信息检索 · 语料 · 语料库 ·

JUÁ - A Benchmark for Information Retrieval in Brazilian Legal Text Collections

翻译：JUÁ——面向巴西法律文本集的信息检索基准

Jayr Pereira,Leandro Fernandes,Erick de Brito,Roberto Lotufo,Luiz Bonifacio

Legal information retrieval in Portuguese remains difficult to evaluate systematically because available datasets differ widely in document type, query style, and relevance definition. We present \textsc{JUÁ}, a public benchmark for Brazilian legal retrieval designed to support more reproducible and comparable evaluation across heterogeneous legal collections. More broadly, \textsc{JUÁ} is intended not only as a benchmark, but as a continuous evaluation infrastructure for Brazilian legal IR, combining shared protocols, common ranking metrics, fixed splits when applicable, and a public leaderboard. The benchmark covers jurisprudence retrieval as well as broader legislative, regulatory, and question-driven legal search. We evaluate lexical, dense, and BM25-based reranking pipelines, including a domain-adapted Qwen embedding model fine-tuned on \textsc{JUÁ}-aligned supervision. Results show that the benchmark is sufficiently heterogeneous to distinguish retrieval paradigms and reveal substantial cross-dataset trade-offs. Domain adaptation yields its clearest gains on the supervision-aligned \textsc{JUÁ-Juris} subset, while BM25 remains highly competitive on other collections, especially in settings with strong lexical and institutional phrasing cues. Overall, \textsc{JUÁ} provides a practical evaluation framework for studying legal retrieval across multiple Brazilian legal domains under a common benchmark design.

翻译：葡萄牙语法律信息检索的系统性评估仍面临困难，因为现有数据集在文档类型、查询风格和相关性定义上差异显著。本文提出\textsc{JUÁ}这一面向巴西法律检索的公开基准，旨在支持跨异构法律语料库的更可重复与可比较评估。广义上，\textsc{JUÁ}不仅是一个基准，更是巴西法律信息检索的持续评估基础设施，融合共享协议、通用排序指标、适用场景下的固定数据划分及公开排行榜。该基准涵盖判例检索，以及更广泛的立法、法规和问题驱动的法律搜索。我们评估了词汇型、稠密型及基于BM25的重排序流水线，包括经\textsc{JUÁ}对齐监督数据微调的领域自适应Qwen嵌入模型。结果表明，该基准具有足够异质性以区分检索范式，并揭示了显著的跨数据集权衡。领域自适应在监督对齐的\textsc{JUÁ-Juris}子集上增益最为显著，而BM25在其他语料库上仍保持强竞争力，尤其在具有强词汇和机构化措辞线索的场景中。总体而言，\textsc{JUÁ}为在统一基准设计下研究跨多个巴西法律领域的检索提供了实用评估框架。

0

相关内容

法律是国家制定或认可的，由国家强制力保证实施的，以规定权利和义务为内容的具有普遍约束力的社会规范。

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

专知会员服务

9+阅读 · 2025年11月3日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

专知会员服务

36+阅读 · 2022年9月6日

【干货书】神经信息检索，50页pdf

【干货书】神经信息检索，50页pdf

专知会员服务

25+阅读 · 2022年7月29日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知会员服务

17+阅读 · 2022年5月30日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【哈工大】基于文档的对话系统(DGDS)综述，A Survey of Document Grounded Dialogue Systems (DGDS)

【哈工大】基于文档的对话系统(DGDS)综述，A Survey of Document Grounded Dialogue Systems (DGDS)

专知会员服务

36+阅读 · 2020年4月30日

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

专知会员服务

26+阅读 · 2020年2月10日

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

专知会员服务

48+阅读 · 2019年11月25日

【NLP| 推荐文章】基于文本和知识库的语义搜索（Semantic search on text and knowledge bases）

专知会员服务

46+阅读 · 2019年11月24日

医疗健康领域的短文本解析探索----文本纠错

医疗健康领域的短文本解析探索----文本纠错

深度学习自然语言处理

10+阅读 · 2020年8月5日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

专知

12+阅读 · 2019年10月13日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

论文浅尝 | 知识图谱相关实体搜索

论文浅尝 | 知识图谱相关实体搜索

开放知识图谱

14+阅读 · 2018年12月18日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

广西民族药物资源数据库及检索平台的研究与设计

国家自然科学基金

0+阅读 · 2014年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

方块苗文的字信息处理关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

AfrIFact: Cultural Information Retrieval, Evidence Extraction and Fact Checking for African Languages

Arxiv

0+阅读 · 4月29日

RoLegalGEC: Legal Domain Grammatical Error Detection and Correction Dataset for Romanian

Arxiv

0+阅读 · 4月22日

Hierarchical Semantic Retrieval with Cobweb

Arxiv

0+阅读 · 4月16日

JUÁ -- A Benchmark for Information Retrieval in Brazilian Legal Text Collections

Arxiv

0+阅读 · 4月8日

AnnoRetrieve: Efficient Structured Retrieval for Unstructured Document Analysis

Arxiv

0+阅读 · 4月3日

JAMMEval: A Refined Collection of Japanese Benchmarks for Reliable VLM Evaluation

Arxiv

0+阅读 · 4月1日

ALBA: A European Portuguese Benchmark for Evaluating Language and Linguistic Dimensions in Generative LLMs

Arxiv

0+阅读 · 3月27日

RenoBench: A Citation Parsing Benchmark

Arxiv

0+阅读 · 3月26日

KuaiSearch: A Large-Scale E-Commerce Search Dataset for Recall, Ranking, and Relevance

Arxiv

0+阅读 · 3月24日

QuaQue: Design and SQL Implementation of Condensed Algebra for Concurrent Versioning of Knowledge Graphs

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

1+阅读 · 7分钟前

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

1+阅读 · 13分钟前

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

2+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

3+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

11+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

7+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

6+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

4+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

10+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

6+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

9+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

11+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

相关VIP内容

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

《深度文本哈希综述：基于二进制表示的高效语义文本检索》

专知会员服务

9+阅读 · 2025年11月3日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

专知会员服务

36+阅读 · 2022年9月6日

【干货书】神经信息检索，50页pdf

【干货书】神经信息检索，50页pdf

专知会员服务

25+阅读 · 2022年7月29日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知会员服务

17+阅读 · 2022年5月30日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【哈工大】基于文档的对话系统(DGDS)综述，A Survey of Document Grounded Dialogue Systems (DGDS)

【哈工大】基于文档的对话系统(DGDS)综述，A Survey of Document Grounded Dialogue Systems (DGDS)

专知会员服务

36+阅读 · 2020年4月30日

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

专知会员服务

26+阅读 · 2020年2月10日

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

专知会员服务

48+阅读 · 2019年11月25日

【NLP| 推荐文章】基于文本和知识库的语义搜索（Semantic search on text and knowledge bases）

专知会员服务

46+阅读 · 2019年11月24日

热门VIP内容

开通专知VIP会员享更多权益服务

博士论文 | 面向大模型推理的内存高效算法

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

相关资讯

医疗健康领域的短文本解析探索----文本纠错

医疗健康领域的短文本解析探索----文本纠错

深度学习自然语言处理

10+阅读 · 2020年8月5日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

专知

12+阅读 · 2019年10月13日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

论文浅尝 | 知识图谱相关实体搜索

论文浅尝 | 知识图谱相关实体搜索

开放知识图谱

14+阅读 · 2018年12月18日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

相关论文

AfrIFact: Cultural Information Retrieval, Evidence Extraction and Fact Checking for African Languages

Arxiv

0+阅读 · 4月29日

RoLegalGEC: Legal Domain Grammatical Error Detection and Correction Dataset for Romanian

Arxiv

0+阅读 · 4月22日

Hierarchical Semantic Retrieval with Cobweb

Arxiv

0+阅读 · 4月16日

JUÁ -- A Benchmark for Information Retrieval in Brazilian Legal Text Collections

Arxiv

0+阅读 · 4月8日

AnnoRetrieve: Efficient Structured Retrieval for Unstructured Document Analysis

Arxiv

0+阅读 · 4月3日

JAMMEval: A Refined Collection of Japanese Benchmarks for Reliable VLM Evaluation

Arxiv

0+阅读 · 4月1日

ALBA: A European Portuguese Benchmark for Evaluating Language and Linguistic Dimensions in Generative LLMs

Arxiv

0+阅读 · 3月27日

RenoBench: A Citation Parsing Benchmark

Arxiv

0+阅读 · 3月26日

KuaiSearch: A Large-Scale E-Commerce Search Dataset for Recall, Ranking, and Relevance

Arxiv

0+阅读 · 3月24日

QuaQue: Design and SQL Implementation of Condensed Algebra for Concurrent Versioning of Knowledge Graphs

Arxiv

0+阅读 · 3月19日

相关基金

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

广西民族药物资源数据库及检索平台的研究与设计

国家自然科学基金

0+阅读 · 2014年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

方块苗文的字信息处理关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员