Instruction-following benchmarks remain predominantly English-centric, leaving a critical evaluation gap for the hundreds of millions of Indic language speakers. We introduce IndicIFEval, a benchmark evaluating constrained generation of LLMs across 14 Indic languages using automatically verifiable, rule-based instructions. It comprises around 800 human-verified examples per language spread across two complementary subsets: IndicIFEval-Ground, translated prompts from IFEval (Zhou et al., 2023) carefully localized for Indic contexts, and IndicIFEval-Ground, synthetically generated instructions grounded in native Indic content. We conduct a comprehensive evaluation of major open-weight and proprietary models spanning both reasoning and non-reasoning models. While models maintain strong adherence to formatting constraints, they struggle significantly with lexical and cross-lingual tasks -- and despite progress in high-resource languages, instruction-following across the broader Indic family lags significantly behind English. We release IndicIFEval and its evaluation scripts to support progress on multilingual constrained generation (http://github.com/ai4bharat/IndicIFEval).


翻译:指令遵循评估基准目前仍以英语为中心,导致对亿万印度语言使用者的关键评估存在空白。本文提出IndicIFEval,这是一个通过可自动验证的基于规则的指令,评估大语言模型在14种印度语言上受限生成能力的基准。该基准每种语言包含约800个人工验证的示例,分布于两个互补的子集:IndicIFEval-Ground(基于IFEval(Zhou等人,2023)提示经针对印度语境细致本地化翻译而成)与IndicIFEval-Ground(基于本土印度语内容合成生成的指令)。我们对涵盖推理与非推理模型的主要开源权重模型及专有模型进行了全面评估。结果显示,模型虽能较好地遵循格式约束,但在词汇及跨语言任务上表现显著不足——尽管高资源语言已取得进展,但整个印度语系的指令遵循能力仍大幅落后于英语。我们公开IndicIFEval及其评估脚本以支持多语言受限生成研究的进展(http://github.com/ai4bharat/IndicIFEval)。

0
下载
关闭预览

相关内容

大语言模型基准综述
专知会员服务
26+阅读 · 2025年8月22日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关VIP内容
大语言模型基准综述
专知会员服务
26+阅读 · 2025年8月22日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员