Municipal meeting minutes are formal records documenting the discussions and decisions of local government, yet their content is often lengthy, dense, and difficult for citizens to navigate. Automatic summarization can help address this challenge by producing concise summaries for each discussion subject. Despite its potential, research on summarizing discussion subjects in municipal meeting minutes remains largely unexplored, especially in low-resource languages, where the inherent complexity of these documents adds further challenges. A major bottleneck is the scarcity of datasets containing high-quality, manually crafted summaries, which limits the development and evaluation of effective summarization models for this domain. In this paper, we present CitiLink-Summ, a new corpus of European Portuguese municipal meeting minutes, comprising 100 documents and 2,322 manually hand-written summaries, each corresponding to a distinct discussion subject. Leveraging this dataset, we establish baseline results for automatic summarization in this domain, employing state-of-the-art generative models (e.g., BART, PRIMERA) as well as large language models (LLMs), evaluated with both lexical and semantic metrics such as ROUGE, BLEU, METEOR, and BERTScore. CitiLink-Summ provides the first benchmark for municipal-domain summarization in European Portuguese, offering a valuable resource for advancing NLP research on complex administrative texts.


翻译:市政会议纪要是记录地方政府讨论与决策的正式文件,但其内容通常冗长、密集,不利于公民查阅。自动摘要技术可为每个讨论议题生成简明摘要,从而应对这一挑战。尽管潜力巨大,针对市政会议纪要中讨论议题的摘要研究仍基本处于空白状态,尤其在低资源语言中,这类文档固有的复杂性带来了更多挑战。一个主要瓶颈是缺乏包含高质量人工撰写摘要的数据集,这限制了该领域有效摘要模型的开发与评估。本文提出CitiLink-Summ——一个全新的欧洲葡萄牙语市政会议纪要语料库,包含100份文档及2,322条人工撰写的摘要,每条摘要对应一个独立的讨论议题。基于此数据集,我们采用最先进的生成模型(如BART、PRIMERA)及大语言模型(LLMs),通过ROUGE、BLEU、METEOR和BERTScore等词汇与语义指标进行评估,为该领域自动摘要任务建立了基线结果。CitiLink-Summ为欧洲葡萄牙语的市政领域摘要研究提供了首个基准,为推动复杂行政文本的自然语言处理研究提供了宝贵资源。

0
下载
关闭预览

相关内容

学术会议,包括国内外相关会议
【简明书】视频摘要概述,55页pdf
专知会员服务
36+阅读 · 2022年10月24日
首篇「多模态摘要」综述论文
专知会员服务
106+阅读 · 2021年9月14日
专知会员服务
29+阅读 · 2021年6月25日
自动文本摘要研究综述
专知会员服务
68+阅读 · 2021年1月31日
专知会员服务
149+阅读 · 2020年9月6日
【论文推荐】文本摘要简述
专知会员服务
69+阅读 · 2020年7月20日
【综述】视频摘要最新综述文章,附45页综述全文下载
专知会员服务
34+阅读 · 2019年9月20日
基于句子嵌入的无监督文本摘要(附代码实现)
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
【ACL】文本摘要研究工作总结
中国人工智能学会
30+阅读 · 2019年8月10日
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
赛尔原创 | 文本摘要简述
哈工大SCIR
22+阅读 · 2019年3月25日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【简明书】视频摘要概述,55页pdf
专知会员服务
36+阅读 · 2022年10月24日
首篇「多模态摘要」综述论文
专知会员服务
106+阅读 · 2021年9月14日
专知会员服务
29+阅读 · 2021年6月25日
自动文本摘要研究综述
专知会员服务
68+阅读 · 2021年1月31日
专知会员服务
149+阅读 · 2020年9月6日
【论文推荐】文本摘要简述
专知会员服务
69+阅读 · 2020年7月20日
【综述】视频摘要最新综述文章,附45页综述全文下载
专知会员服务
34+阅读 · 2019年9月20日
相关资讯
基于句子嵌入的无监督文本摘要(附代码实现)
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
【ACL】文本摘要研究工作总结
中国人工智能学会
30+阅读 · 2019年8月10日
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
赛尔原创 | 文本摘要简述
哈工大SCIR
22+阅读 · 2019年3月25日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员