IR in low-resource languages remains limited by the scarcity of high-quality, task-specific annotated datasets. Manual annotation is expensive and difficult to scale, while using large language models (LLMs) as automated annotators introduces concerns about label reliability, bias, and evaluation validity. This work presents a Bangla IR dataset constructed using a BETA-labeling framework involving multiple LLM annotators from diverse model families. The framework incorporates contextual alignment, consistency checks, and majority agreement, followed by human evaluation to verify label quality. Beyond dataset creation, we examine whether IR datasets from other low-resource languages can be effectively reused through one-hop machine translation. Using LLM-based translation across multiple language pairs, we experimented on meaning preservation and task validity between source and translated datasets. Our experiment reveal substantial variation across languages, reflecting language-dependent biases and inconsistent semantic preservation that directly affect the reliability of cross-lingual dataset reuse. Overall, this study highlights both the potential and limitations of LLM-assisted dataset creation for low-resource IR. It provides empirical evidence of the risks associated with cross-lingual dataset reuse and offers practical guidance for constructing more reliable benchmarks and evaluation pipelines in low-resource language settings.


翻译:低资源语言的信息检索仍受限于高质量、任务特定标注数据集的稀缺性。人工标注成本高昂且难以规模化,而使用大型语言模型作为自动标注器则引发了标签可靠性、偏见及评估有效性方面的担忧。本研究提出了一个通过BETA标注框架构建的孟加拉语信息检索数据集,该框架涉及来自不同模型家族的多个LLM标注器。该框架整合了上下文对齐、一致性检验与多数表决机制,并辅以人工评估以验证标签质量。除数据集构建外,我们还探究了其他低资源语言的信息检索数据集能否通过单跳机器翻译实现有效复用。通过在多语言对上应用基于LLM的翻译,我们实验检验了源数据集与翻译数据集之间的语义保持度与任务有效性。实验结果显示不同语言间存在显著差异,反映了语言依赖性的偏见及不一致的语义保持现象,这些因素直接影响跨语言数据集复用的可靠性。总体而言,本研究揭示了LLM辅助的低资源信息检索数据集构建的潜力与局限,为跨语言数据集复用相关的风险提供了实证依据,并为在低资源语言环境中构建更可靠的基准测试与评估流程提供了实践指导。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
专知会员服务
125+阅读 · 2021年4月29日
【经典书】自然语言标注—用于机器学习,341页pdf
专知会员服务
55+阅读 · 2021年2月12日
【WSDM2021】弱监督下的分层元数据感知文档分类
专知会员服务
11+阅读 · 2020年11月16日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
61+阅读 · 2020年10月27日
专知会员服务
113+阅读 · 2020年3月20日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
情感分析:数据采集与词向量构造方法
北京思腾合力科技有限公司
29+阅读 · 2017年12月20日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
高阶网络的表示:基于图的框架综述
专知会员服务
1+阅读 · 今天16:46
《人工智能中的多智能体自主决策》380页博士论文
《作战资源再分配的作战行动数学模型构建》
专知会员服务
12+阅读 · 今天2:37
世界动作模型: 具身AI的下一个前沿
专知会员服务
13+阅读 · 5月13日
全球十大防空反导系统:列表、射程与用途
专知会员服务
15+阅读 · 5月13日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员