Municipal meeting minutes record key decisions in local democratic processes. Unlike parliamentary proceedings, which typically adhere to standardized formats, they encode voting outcomes in highly heterogeneous, free-form narrative text that varies widely across municipalities, posing significant challenges for automated extraction. In this paper, we introduce VotIE (Voting Information Extraction), a new information extraction task aimed at identifying structured voting events in narrative deliberative records, and establish the first benchmark for this task using Portuguese municipal minutes, building on the recently introduced CitiLink corpus. Our experiments yield two key findings. First, under standard in-domain evaluation, fine-tuned encoders, specifically XLM-R-CRF, achieve the strongest performance, reaching 93.2\% macro F1, outperforming generative approaches. Second, in a cross-municipality setting that evaluates transfer to unseen administrative contexts, these models suffer substantial performance degradation, whereas few-shot LLMs demonstrate greater robustness, with significantly smaller declines in performance. Despite this generalization advantage, the high computational cost of generative models currently constrains their practicality. As a result, lightweight fine-tuned encoders remain a more practical option for large-scale, real-world deployment. To support reproducible research in administrative NLP, we publicly release our benchmark, trained models, and evaluation framework.


翻译:市政会议纪要记录了地方民主进程中的关键决策。与通常遵循标准化格式的议会记录不同,市政会议纪要将投票结果编码在高度异质、自由形式的叙述性文本中,且不同市政机构间差异巨大,这给自动化信息抽取带来了重大挑战。本文提出了VotIE(投票信息抽取),这是一个旨在从叙述性审议记录中识别结构化投票事件的新信息抽取任务,并基于近期引入的CitiLink语料库,使用葡萄牙市政会议纪要建立了该任务的第一个基准。我们的实验得出两个关键发现。首先,在标准的领域内评估中,经过微调的编码器(特别是XLM-R-CRF)取得了最佳性能,宏F1值达到93.2%,优于生成式方法。其次,在评估模型向未见过的行政环境迁移的跨市政机构场景中,这些模型性能显著下降,而少样本大型语言模型则表现出更强的鲁棒性,性能下降幅度明显更小。尽管生成式模型具有这种泛化优势,但其高昂的计算成本目前限制了其实用性。因此,轻量级的微调编码器对于大规模实际部署仍是更实用的选择。为支持行政自然语言处理领域的可复现研究,我们公开发布了基准数据集、训练好的模型及评估框架。

0
下载
关闭预览

相关内容

学术会议,包括国内外相关会议
【NTU博士论文】将上下文融入开放信息抽取
专知会员服务
21+阅读 · 2024年11月11日
专知会员服务
39+阅读 · 2021年5月14日
专知会员服务
203+阅读 · 2020年10月14日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
一文带你读懂自然语言处理 - 事件提取
AI研习社
10+阅读 · 2019年5月10日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员