OasisSimp: An Open-source Asian-English Sentence Simplification Dataset

Hannah Liu,Muxin Tian,Iqra Ali,Haonan Gao,Qiaoyiwen Wu,Blair Yang,Uthayasanker Thayasivam,En-Shiun Annie Lee,Pakawat Nakwijit,Surangika Ranathunga,Ravi Shekhar

from arxiv, Accepted at LREC 2026

Sentence simplification aims to make complex text more accessible by reducing linguistic complexity while preserving the original meaning. However, progress in this area remains limited for mid-resource and low-resource languages due to the scarcity of high-quality data. To address this gap, we introduce the OasisSimp dataset, a multilingual dataset for sentence-level simplification covering five languages: English, Sinhala, Tamil, Pashto, and Thai. Among these, no prior sentence simplification datasets exist for Thai, Pashto, and Tamil, while limited data is available for Sinhala. Each language simplification dataset was created by trained annotators who followed detailed guidelines to simplify sentences while maintaining meaning, fluency, and grammatical correctness. We evaluate eight open-weight multilingual Large Language Models (LLMs) on the OasisSimp dataset and observe substantial performance disparities between high-resource and low-resource languages, highlighting the simplification challenges in multilingual settings. The OasisSimp dataset thus provides both a valuable multilingual resource and a challenging benchmark, revealing the limitations of current LLM-based simplification methods and paving the way for future research in low-resource sentence simplification. The dataset is available at https://OasisSimpDataset.github.io/.

翻译：句子简化旨在通过降低语言复杂性，同时保留原始含义，使复杂文本更易于理解。然而，由于高质量数据的稀缺，该领域在中资源与低资源语言上的进展仍然有限。为填补这一空白，我们引入了OasisSimp数据集，这是一个涵盖英语、僧伽罗语、泰米尔语、普什图语和泰语五种语言的句子级简化多语言数据集。其中，泰语、普什图语和泰米尔语此前尚无句子简化数据集，而僧伽罗语的数据也极为有限。每个语言的简化数据集均由经过培训的标注人员创建，他们遵循详细的指导原则，在保持意义、流畅性和语法正确性的前提下对句子进行简化。我们在OasisSimp数据集上评估了八个开源权重的多语言大语言模型，观察到高资源语言与低资源语言之间存在显著的性能差异，这突显了多语言环境下句子简化所面临的挑战。因此，OasisSimp数据集不仅提供了一个宝贵的多语言资源，也构成了一个具有挑战性的基准，揭示了当前基于大语言模型的简化方法的局限性，并为未来低资源句子简化的研究铺平了道路。该数据集可通过 https://OasisSimpDataset.github.io/ 获取。

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

微软等ACL2022《知识增强自然语言处理》教程，阐述最新前沿技术，附Slides

专知会员服务

41+阅读 · 2022年5月24日

最新《低资源自然语言处理》综述论文，21页pdf

专知会员服务

61+阅读 · 2020年10月27日