MiNER: A Two-Stage Pipeline for Metadata Extraction from Municipal Meeting Minutes - 专知论文

会员服务 ·

0

提取 · 元数据 · 会议 · 识别 · 基准 ·

MiNER: A Two-Stage Pipeline for Metadata Extraction from Municipal Meeting Minutes

翻译：MiNER：一种从市政会议纪要中提取元数据的两阶段流程

Rodrigo Batista,Luís Filipe Cunha,Purificação Silvano,Nuno Guimarães,Alípio Jorge,Evelin Amorim,Ricardo Campos

Municipal meeting minutes are official documents of local governance, exhibiting heterogeneous formats and writing styles. Effective information retrieval (IR) requires identifying metadata such as meeting number, date, location, participants, and start/end times, elements that are rarely standardized or easy to extract automatically. Existing named entity recognition (NER) models are ill-suited to this task, as they are not adapted to such domain-specific categories. In this paper, we propose a two-stage pipeline for metadata extraction from municipal minutes. First, a question answering (QA) model identifies the opening and closing text segments containing metadata. Transformer-based models (BERTimbau and XLM-RoBERTa with and without a CRF layer) are then applied for fine-grained entity extraction and enhanced through deslexicalization. To evaluate our proposed pipeline, we benchmark both open-weight (Phi) and closed-weight (Gemini) LLMs, assessing predictive performance, inference cost, and carbon footprint. Our results demonstrate strong in-domain performance, better than larger general-purpose LLMs. However, cross-municipality evaluation reveals reduced generalization reflecting the variability and linguistic complexity of municipal records. This work establishes the first benchmark for metadata extraction from municipal meeting minutes, providing a solid foundation for future research in this domain.

翻译：市政会议纪要是地方治理的官方文件，其格式与写作风格呈现高度异质性。有效的信息检索需要识别会议编号、日期、地点、参与者、起止时间等元数据，而这些要素极少标准化或易于自动提取。现有的命名实体识别模型难以适应此任务，因其未针对此类领域特定类别进行适配。本文提出一种从市政纪要中提取元数据的两阶段流程：首先通过问答模型识别包含元数据的开篇与结尾文本片段；随后应用基于Transformer的模型（BERTimbau与XLM-RoBERTa，含/不含CRF层）进行细粒度实体提取，并通过去词汇化技术增强性能。为评估所提流程，我们对开源权重模型（Phi）与闭源权重模型（Gemini）进行了基准测试，综合评估预测性能、推理成本与碳足迹。实验结果表明，本方法在领域内表现优异，优于规模更大的通用大语言模型。然而，跨市政机构的评估揭示了泛化能力下降的问题，这反映了市政记录的多样性与语言复杂性。本研究首次建立了市政会议纪要元数据提取的基准，为该领域的后续研究奠定了坚实基础。

0

相关内容

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

《智慧城市城市实体对象标识系统总体要求（征求意见稿）》国家标准

《智慧城市城市实体对象标识系统总体要求（征求意见稿）》国家标准

专知会员服务

19+阅读 · 2024年8月26日

CMNEE：基于开源中国军事新闻的大规模文档级事件抽取数据集

CMNEE：基于开源中国军事新闻的大规模文档级事件抽取数据集

专知会员服务

48+阅读 · 2024年6月2日

【CIKM2022教程】信息抽取：任务、数据和开源工具的实践教程，125页ppt

【CIKM2022教程】信息抽取：任务、数据和开源工具的实践教程，125页ppt

专知会员服务

35+阅读 · 2022年11月25日

重磅！《2035数字议程重大议题：数据治理》发布，34页pdf

重磅！《2035数字议程重大议题：数据治理》发布，34页pdf

专知会员服务

65+阅读 · 2022年10月21日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

什么是事件知识图谱？中科院计算所发布《事件知识图谱综述》论文，阐述从历史、本体、实例和应用视角定义EKG

什么是事件知识图谱？中科院计算所发布《事件知识图谱综述》论文，阐述从历史、本体、实例和应用视角定义EKG

专知会员服务

102+阅读 · 2022年1月5日

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

专知会员服务

36+阅读 · 2020年5月10日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

31+阅读 · 2019年11月17日

《城市大脑发展白皮书（2022）》发布！56页pdf

《城市大脑发展白皮书（2022）》发布！56页pdf

专知

11+阅读 · 2022年1月8日

【SCIR笔记】文档级事件抽取简述

【SCIR笔记】文档级事件抽取简述

深度学习自然语言处理

17+阅读 · 2020年7月30日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

开放知识图谱

26+阅读 · 2018年11月1日

命名实体识别从数据集到算法实现

命名实体识别从数据集到算法实现

专知

56+阅读 · 2018年6月28日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

多特征融合与集成学习的城市高分辨率遥感影像变化检测

国家自然科学基金

4+阅读 · 2014年12月31日

社会化媒体中基于群体智慧的知识萃取、组织与服务

国家自然科学基金

0+阅读 · 2014年12月31日

高维时空场数据的层次张量建模与分析方法

国家自然科学基金

2+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

基于主题图的城市空间信息关联与知识整合研究

国家自然科学基金

3+阅读 · 2014年12月31日

CitiLink-Summ: Summarization of Discussion Subjects in European Portuguese Municipal Meeting Minutes

Arxiv

0+阅读 · 2月18日

Mnemis: Dual-Route Retrieval on Hierarchical Graphs for Long-Term LLM Memory

Arxiv

0+阅读 · 2月17日

Hierarchical Retrieval at Scale: Bridging Transparency and Efficiency

Arxiv

0+阅读 · 2月13日

ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images

Arxiv

0+阅读 · 2月12日

CitiLink-Minutes: A Multilayer Annotated Dataset of Municipal Meeting Minutes

Arxiv

0+阅读 · 2月12日

CitiLink: Enhancing Municipal Transparency and Citizen Engagement through Searchable Meeting Minutes

Arxiv

0+阅读 · 2月9日

VotIE: Information Extraction from Meeting Minutes

Arxiv

0+阅读 · 2月9日

KRONE: Hierarchical and Modular Log Anomaly Detection

Arxiv

0+阅读 · 2月7日

ContraLog: Log File Anomaly Detection with Contrastive Learning and Masked Language Modeling

Arxiv

0+阅读 · 2月3日

MeetBench-XL: Calibrated Multi-Dimensional Evaluation and Learned Dual-Policy Agents for Real-Time Meetings

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

《智慧城市城市实体对象标识系统总体要求（征求意见稿）》国家标准

《智慧城市城市实体对象标识系统总体要求（征求意见稿）》国家标准

专知会员服务

19+阅读 · 2024年8月26日

CMNEE：基于开源中国军事新闻的大规模文档级事件抽取数据集

CMNEE：基于开源中国军事新闻的大规模文档级事件抽取数据集

专知会员服务

48+阅读 · 2024年6月2日

【CIKM2022教程】信息抽取：任务、数据和开源工具的实践教程，125页ppt

【CIKM2022教程】信息抽取：任务、数据和开源工具的实践教程，125页ppt

专知会员服务

35+阅读 · 2022年11月25日

重磅！《2035数字议程重大议题：数据治理》发布，34页pdf

重磅！《2035数字议程重大议题：数据治理》发布，34页pdf

专知会员服务

65+阅读 · 2022年10月21日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

什么是事件知识图谱？中科院计算所发布《事件知识图谱综述》论文，阐述从历史、本体、实例和应用视角定义EKG

什么是事件知识图谱？中科院计算所发布《事件知识图谱综述》论文，阐述从历史、本体、实例和应用视角定义EKG

专知会员服务

102+阅读 · 2022年1月5日

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

专知会员服务

36+阅读 · 2020年5月10日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

31+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

《城市大脑发展白皮书（2022）》发布！56页pdf

《城市大脑发展白皮书（2022）》发布！56页pdf

专知

11+阅读 · 2022年1月8日

【SCIR笔记】文档级事件抽取简述

【SCIR笔记】文档级事件抽取简述

深度学习自然语言处理

17+阅读 · 2020年7月30日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

开放知识图谱

26+阅读 · 2018年11月1日

命名实体识别从数据集到算法实现

命名实体识别从数据集到算法实现

专知

56+阅读 · 2018年6月28日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

相关论文

CitiLink-Summ: Summarization of Discussion Subjects in European Portuguese Municipal Meeting Minutes

Arxiv

0+阅读 · 2月18日

Mnemis: Dual-Route Retrieval on Hierarchical Graphs for Long-Term LLM Memory

Arxiv

0+阅读 · 2月17日

Hierarchical Retrieval at Scale: Bridging Transparency and Efficiency

Arxiv

0+阅读 · 2月13日

ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images

Arxiv

0+阅读 · 2月12日

CitiLink-Minutes: A Multilayer Annotated Dataset of Municipal Meeting Minutes

Arxiv

0+阅读 · 2月12日

CitiLink: Enhancing Municipal Transparency and Citizen Engagement through Searchable Meeting Minutes

Arxiv

0+阅读 · 2月9日

VotIE: Information Extraction from Meeting Minutes

Arxiv

0+阅读 · 2月9日

KRONE: Hierarchical and Modular Log Anomaly Detection

Arxiv

0+阅读 · 2月7日

ContraLog: Log File Anomaly Detection with Contrastive Learning and Masked Language Modeling

Arxiv

0+阅读 · 2月3日

MeetBench-XL: Calibrated Multi-Dimensional Evaluation and Learned Dual-Policy Agents for Real-Time Meetings

Arxiv

0+阅读 · 2月3日

相关基金

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

多特征融合与集成学习的城市高分辨率遥感影像变化检测

国家自然科学基金

4+阅读 · 2014年12月31日

社会化媒体中基于群体智慧的知识萃取、组织与服务

国家自然科学基金

0+阅读 · 2014年12月31日

高维时空场数据的层次张量建模与分析方法

国家自然科学基金

2+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

基于主题图的城市空间信息关联与知识整合研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员