This paper presents a method for text simplification based on two neural architectures: a neural machine translation (NMT) model and a fine-tuned large language model (LLaMA). Given the scarcity of existing resources for Estonian, a new dataset was created by combining manually translated corpora with GPT-4.0-generated simplifications. OpenNMT was selected as a representative NMT-based system, while LLaMA was fine-tuned on the constructed dataset. Evaluation shows LLaMA outperforms OpenNMT in grammaticality, readability, and meaning preservation. These results underscore the effectiveness of large language models for text simplification in low-resource language settings. The complete dataset, fine-tuning scripts, and evaluation pipeline are provided in a publicly accessible supplementary package to support reproducibility and adaptation to other languages.


翻译:本文提出一种基于两种神经架构的文本简化方法:神经机器翻译模型与微调后的大语言模型。鉴于爱沙尼亚语现有资源稀缺,本研究通过结合人工翻译语料与GPT-4.0生成的简化文本构建了新数据集。选择OpenNMT作为基于神经机器翻译的代表性系统,同时将LLaMA在构建的数据集上进行微调。评估表明LLaMA在语法正确性、可读性和语义保持方面均优于OpenNMT。这些结果凸显了大语言模型在低资源语言文本简化任务中的有效性。完整的数据集、微调脚本及评估流程已通过公开可获取的补充包提供,以支持研究的可复现性及对其他语言的适配。

0
下载
关闭预览

相关内容

领域特定文本分类中的预训练语言模型新进展:系统综述
专知会员服务
14+阅读 · 2025年10月24日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
预训练神经机器翻译研究进展分析
专知会员服务
18+阅读 · 2024年7月25日
基于预训练语言模型的文本生成
专知会员服务
29+阅读 · 2022年1月28日
基于改进卷积神经网络的短文本分类模型
专知会员服务
26+阅读 · 2020年7月22日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员