Accurate evaluation is central to the large language model (LLM) ecosystem, guiding model selection and downstream adoption across diverse use cases. In practice, however, evaluating generative outputs typically relies on rigid lexical methods to extract and assess answers, which can conflate a model's true problem-solving ability with its compliance with predefined formatting guidelines. While recent LLM-as-a-Judge approaches mitigate this issue by assessing semantic correctness rather than strict structural conformity, they also introduce substantial computational overhead, making evaluation costly. In this work, we first systematically investigate the limitations of lexical evaluation through a large-scale empirical study spanning 36 models and 15 downstream tasks, demonstrating that such methods correlate poorly with human judgments. To address this limitation, we introduce BERT-as-a-Judge, an encoder-driven approach for assessing answer correctness in reference-based generative settings, robust to variations in output phrasing, and requiring only lightweight training on synthetically annotated question-candidate-reference triplets. We show that it consistently outperforms the lexical baseline while matching the performance of much larger LLM judges, providing a compelling tradeoff between the two and enabling reliable, scalable evaluation. Finally, through extensive experimentation, we provide detailed insights into BERT-as-a-Judge's performance to offer practical guidance for practitioners, and release all project artifacts to foster downstream adoption.


翻译:摘要:准确评估是大语言模型生态系统中的核心环节,对跨多种应用场景的模型选择与下游部署具有指导意义。然而实际评估生成式输出时,通常依赖僵化的词法方法提取并判定答案,这容易将模型真实的问题解决能力与其对预设格式要求的遵循程度相混淆。虽然后续的LLM-as-a-Judge方法通过评估语义正确性而非严格结构一致性缓解了此问题,但其引入了显著的计算开销,导致评估成本高昂。本研究首先通过涵盖36个模型与15项下游任务的大规模实证研究系统揭示了词法评估的局限性,证明此类方法与人类判断的相关性较弱。为解决这一局限,我们提出BERT-as-a-Judge——一种面向基于参考的生成式场景中答案正确性评估的编码器驱动方法,该方案对输出措辞变化具有鲁棒性,仅需基于合成标注的问题-候选答案-参考三元组进行轻量级训练。实验表明,该方法始终优于词法基线,同时匹配更大型LLM评委的性能表现,在两者间实现了具有吸引力的权衡,并支撑起可靠、可扩展的评估。最后,通过大量实验我们深入解析了BERT-as-a-Judge的性能特征以提供实践指导,并公开所有项目构件以促进下游应用。

0
下载
关闭预览

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
【斯坦福博士论文】大语言模型的AI辅助评估
专知会员服务
31+阅读 · 2025年3月30日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
【GitHub】BERT模型从训练到部署全流程
专知
34+阅读 · 2019年6月28日
BERT-预训练的强大
微信AI
61+阅读 · 2019年3月7日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
34+阅读 · 2012年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
0+阅读 · 16分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
0+阅读 · 18分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
1+阅读 · 30分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
1+阅读 · 50分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
34+阅读 · 2012年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员