City councils play a crucial role in local governance, directly influencing citizens' daily lives through decisions made during municipal meetings. These deliberations are formally documented in meeting minutes, which serve as official records of discussions, decisions, and voting outcomes. Despite their importance, municipal meeting records have received little attention in Information Retrieval (IR) and Natural Language Processing (NLP), largely due to the lack of annotated datasets, which ultimately limit the development of computational models. To address this gap, we introduce CitiLink-Minutes, a multilayer dataset of 120 European Portuguese municipal meeting minutes from six municipalities. Unlike prior annotated datasets of parliamentary or video records, CitiLink-Minutes provides multilayer annotations and structured linkage of official written minutes. The dataset contains over one million tokens, with all personal identifiers de-identified. Each minute was manually annotated by two trained annotators and curated by an experienced linguist across three complementary dimensions: (1) metadata, (2) subjects of discussion, and (3) voting outcomes, totaling over 38,000 individual annotations. Released under FAIR principles and accompanied by baseline results on metadata extraction, topic classification, and vote labeling, CitiLink-Minutes demonstrates its potential for downstream NLP and IR tasks, while promoting transparent access to municipal decisions.


翻译:市政议会在地方治理中扮演着关键角色,通过市政会议中作出的决策直接影响公民的日常生活。这些审议内容被正式记录于会议纪要中,作为讨论、决策与投票结果的官方档案。尽管其重要性显著,市政会议记录在信息检索与自然语言处理领域却鲜受关注,这主要源于标注数据集的缺乏,从而最终限制了计算模型的发展。为填补这一空白,我们提出了CitiLink-Minutes——一个包含来自六个市镇的120份欧洲葡萄牙语市政会议纪要的多层数据集。与以往针对议会记录或视频记录的标注数据集不同,CitiLink-Minutes提供了多层标注及官方书面纪要的结构化关联。该数据集包含超过一百万个词元,所有个人标识信息均已去标识化。每份纪要均由两名训练有素的标注员手动标注,并由经验丰富的语言学家在三个互补维度上进行校审:(1)元数据,(2)讨论主题,以及(3)投票结果,总计超过38,000项独立标注。本数据集遵循FAIR原则发布,并附有在元数据提取、主题分类和投票标签任务上的基线结果,展示了CitiLink-Minutes在下游自然语言处理与信息检索任务中的潜力,同时促进了市政决策的透明化访问。

0
下载
关闭预览

相关内容

重磅!《2035数字议程重大议题:数据治理》发布,34页pdf
专知会员服务
65+阅读 · 2022年10月21日
专知会员服务
66+阅读 · 2021年8月28日
【综述】交通流量预测,附15页论文下载
专知
23+阅读 · 2020年4月23日
【数据中台】什么是数据中台?
产业智能官
18+阅读 · 2019年7月30日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
重磅!《2035数字议程重大议题:数据治理》发布,34页pdf
专知会员服务
65+阅读 · 2022年10月21日
专知会员服务
66+阅读 · 2021年8月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员