Multiple-choice question (MCQ) benchmarks have been a standard evaluation practice for measuring LLMs' ability to reason and answer knowledge-based questions. Through a synthetic NonsenseQA benchmark, we observe that different LLMs exhibit varying degrees of label-position-few-shot-prompt bias, where the model either uses the answer position, the label in front of the answer, the distributions of correct answers present in the few-shot prompt, or a combination of all to answer each MCQ question. We propose a simple bias-reduced evaluation protocol that replaces the labels of each question with uniform, unordered labels and prompts the LLM to use the whole answer presented. With a simple sentence similarity model, we demonstrate improved robustness and lower standard deviation between different permutations of answers with a minimal drop in LLM's performance, exposing the LLM's capabilities under reduced evaluation artifacts, without any help from the prompt examples or the option labels. Across multiple benchmarks and models, this protocol substantially improves the robustness to answer permutations, reducing mean accuracy variance $3\times$ with only a minimal decrease in the mean model's performance. Through ablation studies on various embedding models and similarity functions, we show that the method is more robust than the standard ones.


翻译:多项选择题(MCQ)基准测试一直是评估大型语言模型(LLM)推理与回答知识性问题能力的标准实践。通过构建合成的NonsenseQA基准,我们观察到不同LLM表现出不同程度的标签-位置-少样本-提示偏见:模型可能利用答案位置、答案前的标签、少样本提示中正确答案的分布,或综合运用所有这些因素来回答每道多选题。我们提出一种简单的偏见削减评估方案,将每道题的标签替换为统一的无序标签,并提示LLM使用完整的答案表述。借助简单的句子相似度模型,我们在LLM性能仅轻微下降的情况下,证明了该方法能提升鲁棒性并降低不同答案排列间的标准差,从而在减少评估人为因素影响的前提下揭示LLM的真实能力,且无需借助提示示例或选项标签。在多个基准测试和模型上的实验表明,该方案显著提升了对答案排列的鲁棒性,将平均准确率方差降低至原来的1/3,同时仅使模型平均性能出现微小下降。通过对不同嵌入模型与相似度函数的消融研究,我们证明该方法比传统方案更具鲁棒性。

0
下载
关闭预览

相关内容

评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
16+阅读 · 2025年11月25日
大语言模型遇上知识图谱:问答系统中的融合与机遇
专知会员服务
28+阅读 · 2025年5月30日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
专知会员服务
33+阅读 · 2021年10月9日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
从 Word Embedding 到 Bert:一起肢解 Bert!
人工智能头条
17+阅读 · 2018年12月11日
100+中文词向量,总有一款适合你
专知
12+阅读 · 2018年5月13日
论文笔记 | How NOT To Evaluate Your Dialogue System
科技创新与创业
13+阅读 · 2017年12月23日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
BEADs: Bias Evaluation Across Domains
Arxiv
0+阅读 · 2月19日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员