Given a document in a source language, cross-lingual summarization (CLS) aims to generate a summary in a different target language. Recently, the emergence of Large Language Models (LLMs), such as GPT-3.5, ChatGPT and GPT-4, has attracted wide attention from the computational linguistics community. However, it is not yet known the performance of LLMs on CLS. In this report, we empirically use various prompts to guide LLMs to perform zero-shot CLS from different paradigms (i.e., end-to-end and pipeline), and provide a preliminary evaluation on the generated summaries. We find that ChatGPT and GPT-4 originally prefer to produce lengthy summaries with detailed information. These two LLMs can further balance informativeness and conciseness with the help of an interactive prompt, significantly improving their CLS performance. Experimental results on three widely-used CLS datasets show that GPT-4 achieves state-of-the-art zero-shot CLS performance, and performs competitively compared with the fine-tuned mBART-50. Moreover, we also find some multi-lingual and bilingual LLMs (i.e., BLOOMZ, ChatGLM-6B, Vicuna-13B and ChatYuan) have limited zero-shot CLS ability. Due to the composite nature of CLS, which requires models to perform summarization and translation simultaneously, accomplishing this task in a zero-shot manner is even a challenge for LLMs. Therefore, we sincerely hope and recommend future LLM research could use CLS as a testbed.


翻译:跨语言摘要(CLS)旨在将源语言文档生成为不同目标语言的摘要。近年来,GPT-3.5、ChatGPT和GPT-4等大型语言模型(LLMs)的出现引起了计算语言学界的广泛关注。然而,LLMs在跨语言摘要任务中的表现尚不明确。本报告通过设计多种提示策略,引导LLMs从不同范式(端到端与流水线)执行零样本跨语言摘要任务,并对生成的摘要进行了初步评估。研究发现,ChatGPT和GPT-4倾向于生成包含详细信息的冗长摘要。通过引入交互式提示,这两个LLMs能够进一步平衡信息量与简洁性,显著提升其跨语言摘要性能。在三个广泛使用的跨语言摘要数据集上的实验结果表明,GPT-4实现了最优的零样本跨语言摘要性能,并与经微调的mBART-50模型表现相当。此外,我们还发现部分多语言和双语LLMs(如BLOOMZ、ChatGLM-6B、Vicuna-13B和ChatYuan)的零样本跨语言摘要能力有限。由于跨语言摘要任务具有复合特性,要求模型同时执行摘要生成与翻译任务,这使得以零样本方式完成该任务对LLMs而言仍具挑战性。因此,我们诚挚期望并建议未来LLMs研究将跨语言摘要作为测试基准。

1
下载
关闭预览

相关内容

百篇论文纵览大型语言模型最新研究进展
专知会员服务
70+阅读 · 2023年3月31日
基于预训练语言模型的文本生成
专知会员服务
29+阅读 · 2022年1月28日
专知会员服务
55+阅读 · 2021年2月2日
近期必读的五篇 EMNLP 2020【反事实推理】相关论文和代码
专知会员服务
26+阅读 · 2020年11月23日
EMNLP 2022 | ClidSum: 跨语言对话摘要
PaperWeekly
3+阅读 · 2022年11月25日
NAACL 2022 | 基于Prompt的文本生成迁移学习
PaperWeekly
1+阅读 · 2022年8月31日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
26+阅读 · 2019年9月11日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
论文浅尝 | 基于知识库的自然语言理解 04#
开放知识图谱
14+阅读 · 2019年3月14日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月22日
Understanding HTML with Large Language Models
Arxiv
0+阅读 · 2023年5月19日
VIP会员
最新内容
《无人水面艇文献综述与结构设计》135页
专知会员服务
4+阅读 · 今天14:53
乌克兰战场背后的新武器
专知会员服务
6+阅读 · 6月12日
基于博弈论的陆军人机协同(长文报告)
专知会员服务
12+阅读 · 6月12日
美国陆军航空兵:以愿景引领转型
专知会员服务
7+阅读 · 6月12日
相关VIP内容
百篇论文纵览大型语言模型最新研究进展
专知会员服务
70+阅读 · 2023年3月31日
基于预训练语言模型的文本生成
专知会员服务
29+阅读 · 2022年1月28日
专知会员服务
55+阅读 · 2021年2月2日
近期必读的五篇 EMNLP 2020【反事实推理】相关论文和代码
专知会员服务
26+阅读 · 2020年11月23日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员