Text summarization is a fundamental task in natural language processing (NLP), and the information explosion has made long-document processing increasingly demanding, making summarization essential. Existing research mainly focuses on model improvements and sentence-level pruning, but often overlooks global structure, leading to disrupted coherence and weakened downstream performance. Some studies employ large language models (LLMs), which achieve higher accuracy but incur substantial resource and time costs. To address these issues, we introduce GloSA-sum, the first summarization approach that achieves global structure awareness via topological data analysis (TDA). GloSA-sum summarizes text efficiently while preserving semantic cores and logical dependencies. Specifically, we construct a semantic-weighted graph from sentence embeddings, where persistent homology identifies core semantics and logical structures, preserved in a ``protection pool'' as the backbone for summarization. We design a topology-guided iterative strategy, where lightweight proxy metrics approximate sentence importance to avoid repeated high-cost computations, thus preserving structural integrity while improving efficiency. To further enhance long-text processing, we propose a hierarchical strategy that integrates segment-level and global summarization. Experiments on multiple datasets demonstrate that GloSA-sum reduces redundancy while preserving semantic and logical integrity, striking a balance between accuracy and efficiency, and further benefits LLM downstream tasks by shortening contexts while retaining essential reasoning chains.


翻译:文本摘要是自然语言处理(NLP)中的一项基础任务,信息爆炸使得长文档处理需求日益增长,摘要技术变得至关重要。现有研究主要集中于模型改进和句子级剪枝,但往往忽视全局结构,导致摘要连贯性受损、下游任务性能减弱。部分研究采用大型语言模型(LLMs),虽能获得更高准确性,但需耗费大量资源和时间成本。为解决这些问题,我们提出了GloSA-sum,这是首个通过拓扑数据分析(TDA)实现全局结构感知的摘要方法。GloSA-sum能够高效地概括文本,同时保留语义核心与逻辑依赖关系。具体而言,我们从句子嵌入构建语义加权图,通过持续同调识别核心语义与逻辑结构,并将其保存在“保护池”中作为摘要的骨干框架。我们设计了一种拓扑引导的迭代策略,利用轻量级代理指标近似评估句子重要性,避免重复的高成本计算,从而在提升效率的同时保持结构完整性。为进一步增强长文本处理能力,我们提出了一种融合分段摘要与全局摘要的层次化策略。在多个数据集上的实验表明,GloSA-sum能在减少冗余的同时保持语义与逻辑完整性,在准确性与效率间取得平衡,并通过缩短上下文同时保留关键推理链,进一步优化LLM下游任务性能。

0
下载
关闭预览

相关内容

最新综述:速览Transformer长文本建模研究进展
专知会员服务
46+阅读 · 2023年3月15日
【AAAI 2022】用于文本摘要任务的序列级对比学习模型
专知会员服务
25+阅读 · 2022年1月11日
自动文本摘要研究综述
专知会员服务
68+阅读 · 2021年1月31日
专知会员服务
149+阅读 · 2020年9月6日
【文本分类大综述:从浅层到深度学习,35页pdf】
专知会员服务
188+阅读 · 2020年8月6日
【论文推荐】文本摘要简述
专知会员服务
69+阅读 · 2020年7月20日
基于句子嵌入的无监督文本摘要(附代码实现)
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
用深度学习做文本摘要
专知
24+阅读 · 2019年3月30日
赛尔原创 | 文本摘要简述
哈工大SCIR
22+阅读 · 2019年3月25日
手把手 | 基于TextRank算法的文本摘要(附Python代码)
大数据文摘
11+阅读 · 2018年12月27日
独家 | 基于TextRank算法的文本摘要(附Python代码)
数据派THU
14+阅读 · 2018年12月21日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关VIP内容
最新综述:速览Transformer长文本建模研究进展
专知会员服务
46+阅读 · 2023年3月15日
【AAAI 2022】用于文本摘要任务的序列级对比学习模型
专知会员服务
25+阅读 · 2022年1月11日
自动文本摘要研究综述
专知会员服务
68+阅读 · 2021年1月31日
专知会员服务
149+阅读 · 2020年9月6日
【文本分类大综述:从浅层到深度学习,35页pdf】
专知会员服务
188+阅读 · 2020年8月6日
【论文推荐】文本摘要简述
专知会员服务
69+阅读 · 2020年7月20日
相关资讯
基于句子嵌入的无监督文本摘要(附代码实现)
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
用深度学习做文本摘要
专知
24+阅读 · 2019年3月30日
赛尔原创 | 文本摘要简述
哈工大SCIR
22+阅读 · 2019年3月25日
手把手 | 基于TextRank算法的文本摘要(附Python代码)
大数据文摘
11+阅读 · 2018年12月27日
独家 | 基于TextRank算法的文本摘要(附Python代码)
数据派THU
14+阅读 · 2018年12月21日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员