VotIE: Information Extraction from Meeting Minutes - 专知论文

会员服务 ·

0

会议 · 知识抽取 · 基准 · 微调 · 异质 ·

VotIE: Information Extraction from Meeting Minutes

翻译：VotIE：会议纪要中的信息抽取

José Pedro Evans,Luís Filipe Cunha,Purificação Silvano,Alípio Jorge,Nuno Guimarães,Sérgio Nunes,Ricardo Campos

Municipal meeting minutes record key decisions in local democratic processes. Unlike parliamentary proceedings, which typically adhere to standardized formats, they encode voting outcomes in highly heterogeneous, free-form narrative text that varies widely across municipalities, posing significant challenges for automated extraction. In this paper, we introduce VotIE (Voting Information Extraction), a new information extraction task aimed at identifying structured voting events in narrative deliberative records, and establish the first benchmark for this task using Portuguese municipal minutes, building on the recently introduced CitiLink corpus. Our experiments yield two key findings. First, under standard in-domain evaluation, fine-tuned encoders, specifically XLM-R-CRF, achieve the strongest performance, reaching 93.2\% macro F1, outperforming generative approaches. Second, in a cross-municipality setting that evaluates transfer to unseen administrative contexts, these models suffer substantial performance degradation, whereas few-shot LLMs demonstrate greater robustness, with significantly smaller declines in performance. Despite this generalization advantage, the high computational cost of generative models currently constrains their practicality. As a result, lightweight fine-tuned encoders remain a more practical option for large-scale, real-world deployment. To support reproducible research in administrative NLP, we publicly release our benchmark, trained models, and evaluation framework.

翻译：市政会议纪要记录了地方民主进程中的关键决策。与通常遵循标准化格式的议会记录不同，市政会议纪要将投票结果编码在高度异质、自由形式的叙述性文本中，且不同市政机构间差异巨大，这给自动化信息抽取带来了重大挑战。本文提出了VotIE（投票信息抽取），这是一个旨在从叙述性审议记录中识别结构化投票事件的新信息抽取任务，并基于近期引入的CitiLink语料库，使用葡萄牙市政会议纪要建立了该任务的第一个基准。我们的实验得出两个关键发现。首先，在标准的领域内评估中，经过微调的编码器（特别是XLM-R-CRF）取得了最佳性能，宏F1值达到93.2%，优于生成式方法。其次，在评估模型向未见过的行政环境迁移的跨市政机构场景中，这些模型性能显著下降，而少样本大型语言模型则表现出更强的鲁棒性，性能下降幅度明显更小。尽管生成式模型具有这种泛化优势，但其高昂的计算成本目前限制了其实用性。因此，轻量级的微调编码器对于大规模实际部署仍是更实用的选择。为支持行政自然语言处理领域的可复现研究，我们公开发布了基准数据集、训练好的模型及评估框架。

0

相关内容

学术会议，包括国内外相关会议

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

专知会员服务

19+阅读 · 2025年12月23日

【NTU博士论文】将上下文融入开放信息抽取

【NTU博士论文】将上下文融入开放信息抽取

专知会员服务

21+阅读 · 2024年11月11日

【CIKM2022教程】信息抽取：任务、数据和开源工具的实践教程，125页ppt

【CIKM2022教程】信息抽取：任务、数据和开源工具的实践教程，125页ppt

专知会员服务

35+阅读 · 2022年11月25日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知会员服务

17+阅读 · 2022年5月30日

【AI+军事】附论文《混合决策的证据跟踪》美国海军信息战中心

【AI+军事】附论文《混合决策的证据跟踪》美国海军信息战中心

专知会员服务

72+阅读 · 2022年4月28日

自由文本电子病历信息抽取综述

专知会员服务

40+阅读 · 2021年5月14日

面向知识图谱的信息抽取

专知会员服务

204+阅读 · 2020年10月14日

【AAAI 2020】将深度学习与逻辑融合用于信息提取（Integrating Deep Learning with Logic Fusion for Information Extraction）

【AAAI 2020】将深度学习与逻辑融合用于信息提取（Integrating Deep Learning with Logic Fusion for Information Extraction）

专知会员服务

66+阅读 · 2019年12月28日

【CCL 2019】信息抽取前沿动态，中科院自动化模式识别国家重点实验室助理研究员陈玉博博士

【CCL 2019】信息抽取前沿动态，中科院自动化模式识别国家重点实验室助理研究员陈玉博博士

专知会员服务

86+阅读 · 2019年11月12日

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

专知

31+阅读 · 2020年7月6日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

论文浅尝 | GraphIE:基于图的信息抽取框架

论文浅尝 | GraphIE:基于图的信息抽取框架

开放知识图谱

17+阅读 · 2019年6月2日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

一文带你读懂自然语言处理 - 事件提取

一文带你读懂自然语言处理 - 事件提取

AI研习社

10+阅读 · 2019年5月10日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

生命起源过程中“标签介导的遗传信息复制和表达的出现及演化”的计算机模拟研究

国家自然科学基金

0+阅读 · 2014年12月31日

社会化媒体中基于群体智慧的知识萃取、组织与服务

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

CitiLink-Summ: Summarization of Discussion Subjects in European Portuguese Municipal Meeting Minutes

Arxiv

0+阅读 · 2月18日

RMPL: Relation-aware Multi-task Progressive Learning with Stage-wise Training for Multimedia Event Extraction

Arxiv

0+阅读 · 2月14日

ExtractBench: A Benchmark and Evaluation Methodology for Complex Structured Extraction

Arxiv

0+阅读 · 2月12日

ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images

Arxiv

0+阅读 · 2月12日

CitiLink-Minutes: A Multilayer Annotated Dataset of Municipal Meeting Minutes

Arxiv

0+阅读 · 2月12日

FactSim: Fact-Checking for Opinion Summarization

Arxiv

0+阅读 · 2月9日

CitiLink: Enhancing Municipal Transparency and Citizen Engagement through Searchable Meeting Minutes

Arxiv

0+阅读 · 2月9日

MiNER: A Two-Stage Pipeline for Metadata Extraction from Municipal Meeting Minutes

Arxiv

0+阅读 · 2月9日

A Domain-Specific Curated Benchmark for Entity and Document-Level Relation Extraction

Arxiv

0+阅读 · 2月4日

ContraLog: Log File Anomaly Detection with Contrastive Learning and Masked Language Modeling

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

综述 | Weights or Skills?：机器人学习从动作预测权重到自编写技能

综述 | Weights or Skills?：机器人学习从动作预测权重到自编写技能

专知会员服务

0+阅读 · 4分钟前

论文 | Causal Inference with Unstructured Outcomes：面向文本与图像结果的因果推断

论文 | Causal Inference with Unstructured Outcomes：面向文本与图像结果的因果推断

专知会员服务

0+阅读 · 12分钟前

面向2027年及未来的海军情报改革

面向2027年及未来的海军情报改革

专知会员服务

3+阅读 · 8月5日

透视一体化防空：人工智能如何重构从探测到杀伤的靶向全流程

透视一体化防空：人工智能如何重构从探测到杀伤的靶向全流程

专知会员服务

6+阅读 · 8月5日

《多武器毁伤效能评估：解析解与优化瞄准点研究》

《多武器毁伤效能评估：解析解与优化瞄准点研究》

专知会员服务

6+阅读 · 8月5日

《一种面向不确定作战环境的异构无人机协同任务与航路规划随机多目标优化方法》

《一种面向不确定作战环境的异构无人机协同任务与航路规划随机多目标优化方法》

专知会员服务

7+阅读 · 8月5日

《一种基于博弈论的海军平台动态武器分配问题求解方法》

《一种基于博弈论的海军平台动态武器分配问题求解方法》

专知会员服务

5+阅读 · 8月5日

《一种面向武器目标分配的快速可扩展Transformer-指针强化学习框架》

《一种面向武器目标分配的快速可扩展Transformer-指针强化学习框架》

专知会员服务

7+阅读 · 8月5日

ACM MM 2026 | DualG-MRAG：解耦宏观推理与微观匹配的多模态检索增强生成

ACM MM 2026 | DualG-MRAG：解耦宏观推理与微观匹配的多模态检索增强生成

专知会员服务

5+阅读 · 8月5日

综述 | Self-Evolving Coding Agents：自进化编程智能体

综述 | Self-Evolving Coding Agents：自进化编程智能体

专知会员服务

6+阅读 · 8月5日

战火淬炼创新：美军联合战备训练中心探讨现代战场挑战

战火淬炼创新：美军联合战备训练中心探讨现代战场挑战

专知会员服务

5+阅读 · 8月5日

美海军陆战队将三型无人机整合入统一战场网络

美海军陆战队将三型无人机整合入统一战场网络

专知会员服务

3+阅读 · 8月5日

《战术指挥控制要务：构建韧性机动指挥控制网格》美智库报告

《战术指挥控制要务：构建韧性机动指挥控制网格》美智库报告

专知会员服务

5+阅读 · 8月5日

《无人机蜂群：释放人类-蜂群编队的潜能》

《无人机蜂群：释放人类-蜂群编队的潜能》

专知会员服务

6+阅读 · 8月5日

《战略战术化：一项综合性述评》

《战略战术化：一项综合性述评》

专知会员服务

4+阅读 · 8月5日

相关VIP内容

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

专知会员服务

19+阅读 · 2025年12月23日

【NTU博士论文】将上下文融入开放信息抽取

【NTU博士论文】将上下文融入开放信息抽取

专知会员服务

21+阅读 · 2024年11月11日

【CIKM2022教程】信息抽取：任务、数据和开源工具的实践教程，125页ppt

【CIKM2022教程】信息抽取：任务、数据和开源工具的实践教程，125页ppt

专知会员服务

35+阅读 · 2022年11月25日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知会员服务

17+阅读 · 2022年5月30日

【AI+军事】附论文《混合决策的证据跟踪》美国海军信息战中心

【AI+军事】附论文《混合决策的证据跟踪》美国海军信息战中心

专知会员服务

72+阅读 · 2022年4月28日

自由文本电子病历信息抽取综述

专知会员服务

40+阅读 · 2021年5月14日

面向知识图谱的信息抽取

专知会员服务

204+阅读 · 2020年10月14日

【AAAI 2020】将深度学习与逻辑融合用于信息提取（Integrating Deep Learning with Logic Fusion for Information Extraction）

【AAAI 2020】将深度学习与逻辑融合用于信息提取（Integrating Deep Learning with Logic Fusion for Information Extraction）

专知会员服务

66+阅读 · 2019年12月28日

【CCL 2019】信息抽取前沿动态，中科院自动化模式识别国家重点实验室助理研究员陈玉博博士

【CCL 2019】信息抽取前沿动态，中科院自动化模式识别国家重点实验室助理研究员陈玉博博士

专知会员服务

86+阅读 · 2019年11月12日

热门VIP内容

开通专知VIP会员享更多权益服务

透视一体化防空：人工智能如何重构从探测到杀伤的靶向全流程

《一种面向不确定作战环境的异构无人机协同任务与航路规划随机多目标优化方法》

面向2027年及未来的海军情报改革

《多武器毁伤效能评估：解析解与优化瞄准点研究》

相关资讯

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

专知

31+阅读 · 2020年7月6日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

论文浅尝 | GraphIE:基于图的信息抽取框架

论文浅尝 | GraphIE:基于图的信息抽取框架

开放知识图谱

17+阅读 · 2019年6月2日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

一文带你读懂自然语言处理 - 事件提取

一文带你读懂自然语言处理 - 事件提取

AI研习社

10+阅读 · 2019年5月10日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

相关论文

CitiLink-Summ: Summarization of Discussion Subjects in European Portuguese Municipal Meeting Minutes

Arxiv

0+阅读 · 2月18日

RMPL: Relation-aware Multi-task Progressive Learning with Stage-wise Training for Multimedia Event Extraction

Arxiv

0+阅读 · 2月14日

ExtractBench: A Benchmark and Evaluation Methodology for Complex Structured Extraction

Arxiv

0+阅读 · 2月12日

ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images

Arxiv

0+阅读 · 2月12日

CitiLink-Minutes: A Multilayer Annotated Dataset of Municipal Meeting Minutes

Arxiv

0+阅读 · 2月12日

FactSim: Fact-Checking for Opinion Summarization

Arxiv

0+阅读 · 2月9日

CitiLink: Enhancing Municipal Transparency and Citizen Engagement through Searchable Meeting Minutes

Arxiv

0+阅读 · 2月9日

MiNER: A Two-Stage Pipeline for Metadata Extraction from Municipal Meeting Minutes

Arxiv

0+阅读 · 2月9日

A Domain-Specific Curated Benchmark for Entity and Document-Level Relation Extraction

Arxiv

0+阅读 · 2月4日

ContraLog: Log File Anomaly Detection with Contrastive Learning and Masked Language Modeling

Arxiv

0+阅读 · 2月3日

相关基金

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

Web页面数据对象的感知理解与计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

生命起源过程中“标签介导的遗传信息复制和表达的出现及演化”的计算机模拟研究

国家自然科学基金

0+阅读 · 2014年12月31日

社会化媒体中基于群体智慧的知识萃取、组织与服务

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员