Narrative question answering (NQA) is a challenging task in natural language processing that requires models to understand long textual contexts, capture relationships across events, and generate coherent responses. Despite recent advances in pretrained language models, most existing approaches rely on a single decoding output during inference, making them sensitive to generation variability and often resulting in incomplete or inconsistent answers .To address this limitation, we propose a self-ensemble Self-Consistency-Based reranking framework for narrative question answering. The proposed method generates multiple candidate answers for each story-question pair and selects the final answer based on semantic agreement among the generated responses. This allows the model to explore diverse answer formulations while improving robustness through consensus-based selection without requiring modifications to the underlying architecture .The framework combines pretrained and fine-tuned language generation with multi-answer inference and similarity-based reranking. We evaluate the proposed approach on the NarrativeQA dataset using multiple models, including FLAN-T5 (Base and Small) and Pegasus-Large, under both baseline and fine-tuned settings .Experimental results demonstrate that the proposed method consistently improves performance across all models. In particular, FLAN-T5-Base achieves the best overall performance, improving from 82.32% to 86.66% (+4.34%) when combined with self-ensemble inference. Additionally, the largest improvement is observed with Pegasus-Large, which increases from 72.50% to 87.07% (+14.57%), highlighting the effectiveness of the proposed strategy.


翻译:叙事问答(NQA)是自然语言处理中的一项具有挑战性的任务,要求模型理解长文本语境、捕捉事件间的关联并生成连贯的答案。尽管预训练语言模型取得了近期进展,但现有方法在推理过程中大多依赖单一解码输出,导致其对生成变异性敏感,且常产生不完整或不一致的答案。为解决这一限制,我们提出了一种基于自集成自一致性的重排序框架。该方法为每个故事-问题对生成多个候选答案,并根据生成响应间的语义一致性选择最终答案。这使得模型能够探索多样化的答案表述形式,同时通过基于共识的选择提升鲁棒性,且无需修改底层架构。该框架将预训练与微调的语言生成技术、多答案推理以及基于相似性的重排序相结合。我们在NarrativeQA数据集上使用多种模型(包括FLAN-T5(Base与Small版本)和Pegasus-Large)在基线设置与微调设置下进行了评估。实验结果表明,所提方法在所有模型上均实现了性能稳定提升。其中,当结合自集成推理时,FLAN-T5-Base获得最佳整体性能,从82.32%提升至86.66%(+4.34%)。此外,Pegasus-Large取得了最大提升幅度,从72.50%跃升至87.07%(+14.57%),充分验证了所提策略的有效性。

0
下载
关闭预览

相关内容

神经图推理:复杂逻辑查询回答的综述
专知会员服务
28+阅读 · 2024年12月10日
【CMU博士论文】混合知识架构问答系统,150页pdf
专知会员服务
41+阅读 · 2023年12月14日
【CMU博士论文】神经推理问答,151页pdf
专知会员服务
46+阅读 · 2023年6月5日
面向知识库问答的问句语义解析研究综述
专知会员服务
33+阅读 · 2022年12月11日
【CVPR2021】基于反事实推断的视觉问答框架
专知会员服务
27+阅读 · 2021年3月4日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
83+阅读 · 2023年3月26日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员