Municipal meeting minutes are official documents of local governance, exhibiting heterogeneous formats and writing styles. Effective information retrieval (IR) requires identifying metadata such as meeting number, date, location, participants, and start/end times, elements that are rarely standardized or easy to extract automatically. Existing named entity recognition (NER) models are ill-suited to this task, as they are not adapted to such domain-specific categories. In this paper, we propose a two-stage pipeline for metadata extraction from municipal minutes. First, a question answering (QA) model identifies the opening and closing text segments containing metadata. Transformer-based models (BERTimbau and XLM-RoBERTa with and without a CRF layer) are then applied for fine-grained entity extraction and enhanced through deslexicalization. To evaluate our proposed pipeline, we benchmark both open-weight (Phi) and closed-weight (Gemini) LLMs, assessing predictive performance, inference cost, and carbon footprint. Our results demonstrate strong in-domain performance, better than larger general-purpose LLMs. However, cross-municipality evaluation reveals reduced generalization reflecting the variability and linguistic complexity of municipal records. This work establishes the first benchmark for metadata extraction from municipal meeting minutes, providing a solid foundation for future research in this domain.


翻译:市政会议纪要是地方治理的官方文件,其格式与写作风格呈现高度异质性。有效的信息检索需要识别会议编号、日期、地点、参与者、起止时间等元数据,而这些要素极少标准化或易于自动提取。现有的命名实体识别模型难以适应此任务,因其未针对此类领域特定类别进行适配。本文提出一种从市政纪要中提取元数据的两阶段流程:首先通过问答模型识别包含元数据的开篇与结尾文本片段;随后应用基于Transformer的模型(BERTimbau与XLM-RoBERTa,含/不含CRF层)进行细粒度实体提取,并通过去词汇化技术增强性能。为评估所提流程,我们对开源权重模型(Phi)与闭源权重模型(Gemini)进行了基准测试,综合评估预测性能、推理成本与碳足迹。实验结果表明,本方法在领域内表现优异,优于规模更大的通用大语言模型。然而,跨市政机构的评估揭示了泛化能力下降的问题,这反映了市政记录的多样性与语言复杂性。本研究首次建立了市政会议纪要元数据提取的基准,为该领域的后续研究奠定了坚实基础。

0
下载
关闭预览

相关内容

重磅!《2035数字议程重大议题:数据治理》发布,34页pdf
专知会员服务
65+阅读 · 2022年10月21日
【SCIR笔记】文档级事件抽取简述
深度学习自然语言处理
17+阅读 · 2020年7月30日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
论文浅尝 | Zero-Shot Transfer Learning for Event Extraction
开放知识图谱
26+阅读 · 2018年11月1日
命名实体识别从数据集到算法实现
专知
55+阅读 · 2018年6月28日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
重磅!《2035数字议程重大议题:数据治理》发布,34页pdf
专知会员服务
65+阅读 · 2022年10月21日
相关资讯
【SCIR笔记】文档级事件抽取简述
深度学习自然语言处理
17+阅读 · 2020年7月30日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
论文浅尝 | Zero-Shot Transfer Learning for Event Extraction
开放知识图谱
26+阅读 · 2018年11月1日
命名实体识别从数据集到算法实现
专知
55+阅读 · 2018年6月28日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员