Multi-document scientific summarization can extract and organize important information from an abundant collection of papers, arousing widespread attention recently. However, existing efforts focus on producing lengthy overviews lacking a clear and logical hierarchy. To alleviate this problem, we present an atomic and challenging task named Hierarchical Catalogue Generation for Literature Review (HiCatGLR), which aims to generate a hierarchical catalogue for a review paper given various references. We carefully construct a novel English Hierarchical Catalogues of Literature Reviews Dataset (HiCaD) with 13.8k literature review catalogues and 120k reference papers, where we benchmark diverse experiments via the end-to-end and pipeline methods. To accurately assess the model performance, we design evaluation metrics for similarity to ground truth from semantics and structure. Besides, our extensive analyses verify the high quality of our dataset and the effectiveness of our evaluation metrics. Furthermore, we discuss potential directions for this task to motivate future research.


翻译:多文档科学摘要能够从丰富的论文集合中提取并组织重要信息,近期引起了广泛关注。然而,现有工作侧重于生成缺乏清晰逻辑层次的长篇概述。为解决这一问题,我们提出了一项基础且具有挑战性的任务——面向文献综述的层级目录生成(HiCatGLR),旨在基于多种参考文献为综述论文生成层级目录。我们精心构建了一个新颖的英文文献综述层级目录数据集(HiCaD),包含13,800个文献综述目录和12万篇参考文献论文,并通过端到端方法与流水线方法对多种实验进行了基准测试。为准确评估模型性能,我们从语义和结构两个维度设计了与真实标签的相似度评估指标。此外,我们的广泛分析验证了数据集的高质量及评估指标的有效性。最后,我们讨论了该任务的潜在研究方向,以推动未来研究。

0
下载
关闭预览

相关内容

UCL& UC Berkeley | 深度强化学习中的泛化研究综述
专知会员服务
61+阅读 · 2021年11月22日
专知会员服务
33+阅读 · 2021年9月27日
专知会员服务
21+阅读 · 2020年9月11日
WSDM 2023 | 针对长文档场景下的跨语言摘要
PaperWeekly
1+阅读 · 2022年11月26日
「基于深度学习的 SQL 生成」2022研究综述
专知
0+阅读 · 2022年8月12日
2022最新!3篇GNN领域综述!
图与推荐
11+阅读 · 2022年2月18日
【综述】迁移自适应学习十年进展
专知
41+阅读 · 2019年11月26日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
26+阅读 · 2019年9月11日
命名实体识别(NER)综述
AI研习社
66+阅读 · 2019年1月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Arxiv
92+阅读 · 2020年2月28日
Generative Adversarial Networks: A Survey and Taxonomy
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
UCL& UC Berkeley | 深度强化学习中的泛化研究综述
专知会员服务
61+阅读 · 2021年11月22日
专知会员服务
33+阅读 · 2021年9月27日
专知会员服务
21+阅读 · 2020年9月11日
相关资讯
WSDM 2023 | 针对长文档场景下的跨语言摘要
PaperWeekly
1+阅读 · 2022年11月26日
「基于深度学习的 SQL 生成」2022研究综述
专知
0+阅读 · 2022年8月12日
2022最新!3篇GNN领域综述!
图与推荐
11+阅读 · 2022年2月18日
【综述】迁移自适应学习十年进展
专知
41+阅读 · 2019年11月26日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
26+阅读 · 2019年9月11日
命名实体识别(NER)综述
AI研习社
66+阅读 · 2019年1月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员