Towards Provably Unbiased LLM Judges via Bias-Bounded Evaluation - 专知论文

会员服务 ·

0

偏差 · 系统 · 无偏 · 临界点 · AI ·

Towards Provably Unbiased LLM Judges via Bias-Bounded Evaluation

翻译：迈向可证明无偏的LLM裁判：基于偏差有界评估的框架

Benjamin Feuer,Lucas Rosenblatt,Oussama Elachqar

As AI models progress beyond simple chatbots into more complex workflows, we draw ever closer to the event horizon beyond which AI systems will be utilized in autonomous, self-maintaining feedback loops. Any autonomous AI system will depend on automated, verifiable rewards and feedback; in settings where ground truth is sparse or non-deterministic, one practical source of such rewards is an LLM-as-a-Judge. Although LLM judges continue to improve, the literature has yet to introduce systems capable of enforcing standards with strong guarantees, particularly when bias vectors are unknown or adversarially discovered. To remedy this issue, we propose average bias-boundedness (A-BB), an algorithmic framework which formally guarantees reductions of harm/impact as a result of any measurable bias in an LLM judge. Evaluating on Arena-Hard-Auto with four LLM judges, we achieve (tau=0.5, delta=0.01) bias-bounded guarantees while retaining 61-99% correlation with original rankings across formatting and schematic bias settings, with most judge-bias combinations exceeding 80%. The code to reproduce our findings is available at https://github.com/penfever/bias-bounded-evaluation.

翻译：随着人工智能模型从简单的聊天机器人发展为更复杂的工作流程，我们正日益接近一个临界点：超越该临界点后，AI系统将被用于自主、自我维持的反馈循环中。任何自主AI系统都将依赖于自动化且可验证的奖励与反馈机制；在真实标签稀缺或非确定性的场景中，一种实用的奖励来源是采用LLM作为裁判（LLM-as-a-Judge）。尽管LLM裁判持续改进，现有文献尚未能引入具备强保证标准的强制执行系统，尤其是在偏差向量未知或被对抗性发现的情况下。为解决这一问题，我们提出了平均偏差有界性（A-BB）算法框架，该框架能形式化地保证LLM裁判中任何可测量偏差所造成的危害/影响得到降低。通过在Arena-Hard-Auto数据集上对四种LLM裁判进行评估，我们在格式与图式偏差设置中实现了（τ=0.5，δ=0.01）的偏差有界保证，同时保持与原始排名61-99%的相关性，且大多数裁判-偏差组合的相关性超过80%。重现本研究成果的代码已发布于https://github.com/penfever/bias-bounded-evaluation。

0

相关内容

首个针对同构与异构数据的可证明最优异步随机梯度下降算法

首个针对同构与异构数据的可证明最优异步随机梯度下降算法

专知会员服务

10+阅读 · 1月31日

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

专知会员服务

35+阅读 · 2025年9月16日

【新书】LLM 发展与人工智能伦理：人工智能安全、治理、生成式人工智能、大语言模型、提示工程与通用人工智能指南

【新书】LLM 发展与人工智能伦理：人工智能安全、治理、生成式人工智能、大语言模型、提示工程与通用人工智能指南

专知会员服务

25+阅读 · 2025年6月1日

LLM驱动的指令遵循:进展，213页ppt

LLM驱动的指令遵循:进展，213页ppt

专知会员服务

70+阅读 · 2023年12月30日

人机协作《评估影响信任校准的因素：信任战略和风险的影响》美空军21页报告

人机协作《评估影响信任校准的因素：信任战略和风险的影响》美空军21页报告

专知会员服务

32+阅读 · 2023年7月18日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

108+阅读 · 2021年10月6日

【WWW2021】面向推荐学习公平表示：一种图视角

专知会员服务

30+阅读 · 2021年2月21日

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

专知会员服务

64+阅读 · 2020年4月16日

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

专知会员服务

59+阅读 · 2020年3月19日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

谷歌可解释人工智能白皮书，27页pdf，Google AI Explainability Whitepaper

谷歌可解释人工智能白皮书，27页pdf，Google AI Explainability Whitepaper

专知

28+阅读 · 2019年12月13日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

关于弱监督学习，这可能是目前最详尽的一篇科普文

关于弱监督学习，这可能是目前最详尽的一篇科普文

AI科技评论

29+阅读 · 2019年5月1日

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

产业智能官

20+阅读 · 2018年7月24日

不对称多代理博弈中的博弈理论解读

不对称多代理博弈中的博弈理论解读

AI前线

14+阅读 · 2018年3月8日

【深度】专知主题链路知识推荐#8-机器学习中的变分推断方法(Variational Inference)简介01

【深度】专知主题链路知识推荐#8-机器学习中的变分推断方法(Variational Inference)简介01

专知

15+阅读 · 2017年9月26日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

无界区域椭圆型和抛物型偏微分方程的人工边界条件数值方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

From Black-Box Confidence to Measurable Trust in Clinical AI: A Framework for Evidence, Supervision, and Staged Autonomy

Arxiv

0+阅读 · 4月29日

Justice in Judgment: Unveiling (Hidden) Bias in LLM-assisted Peer Reviews

Arxiv

0+阅读 · 4月28日

Measuring What Matters -- or What's Convenient?: Robustness of LLM-Based Scoring Systems to Construct-Irrelevant Factors

Arxiv

0+阅读 · 3月26日

Decidable By Construction: Design-Time Verification for Trustworthy AI

Arxiv

0+阅读 · 3月26日

The Stochastic Gap: A Markovian Framework for Pre-Deployment Reliability and Oversight-Cost Auditing in Agentic Artificial Intelligence

Arxiv

0+阅读 · 3月25日

ImplicitRM: Unbiased Reward Modeling from Implicit Preference Data for LLM alignment

Arxiv

0+阅读 · 3月24日

Beyond Benchmark Islands: Toward Representative Trustworthiness Evaluation for Agentic AI

Arxiv

0+阅读 · 3月16日

Towards Scalable Oversight via Partitioned Human Supervision

Arxiv

0+阅读 · 2月24日

Towards More Standardized AI Evaluation: From Models to Agents

Arxiv

0+阅读 · 2月20日

Through the Judge's Eyes: Inferred Thinking Traces Improve Reliability of LLM Raters

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

5+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

5+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

7+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

7+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

9+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

8+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

8+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

9+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

11+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

10+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

10+阅读 · 6月24日

相关VIP内容

首个针对同构与异构数据的可证明最优异步随机梯度下降算法

首个针对同构与异构数据的可证明最优异步随机梯度下降算法

专知会员服务

10+阅读 · 1月31日

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

专知会员服务

35+阅读 · 2025年9月16日

【新书】LLM 发展与人工智能伦理：人工智能安全、治理、生成式人工智能、大语言模型、提示工程与通用人工智能指南

【新书】LLM 发展与人工智能伦理：人工智能安全、治理、生成式人工智能、大语言模型、提示工程与通用人工智能指南

专知会员服务

25+阅读 · 2025年6月1日

LLM驱动的指令遵循:进展，213页ppt

LLM驱动的指令遵循:进展，213页ppt

专知会员服务

70+阅读 · 2023年12月30日

人机协作《评估影响信任校准的因素：信任战略和风险的影响》美空军21页报告

人机协作《评估影响信任校准的因素：信任战略和风险的影响》美空军21页报告

专知会员服务

32+阅读 · 2023年7月18日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

108+阅读 · 2021年10月6日

【WWW2021】面向推荐学习公平表示：一种图视角

专知会员服务

30+阅读 · 2021年2月21日

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

专知会员服务

64+阅读 · 2020年4月16日

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

专知会员服务

59+阅读 · 2020年3月19日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

谷歌可解释人工智能白皮书，27页pdf，Google AI Explainability Whitepaper

谷歌可解释人工智能白皮书，27页pdf，Google AI Explainability Whitepaper

专知

28+阅读 · 2019年12月13日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

关于弱监督学习，这可能是目前最详尽的一篇科普文

关于弱监督学习，这可能是目前最详尽的一篇科普文

AI科技评论

29+阅读 · 2019年5月1日

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

产业智能官

20+阅读 · 2018年7月24日

不对称多代理博弈中的博弈理论解读

不对称多代理博弈中的博弈理论解读

AI前线

14+阅读 · 2018年3月8日

【深度】专知主题链路知识推荐#8-机器学习中的变分推断方法(Variational Inference)简介01

【深度】专知主题链路知识推荐#8-机器学习中的变分推断方法(Variational Inference)简介01

专知

15+阅读 · 2017年9月26日

相关论文

From Black-Box Confidence to Measurable Trust in Clinical AI: A Framework for Evidence, Supervision, and Staged Autonomy

Arxiv

0+阅读 · 4月29日

Justice in Judgment: Unveiling (Hidden) Bias in LLM-assisted Peer Reviews

Arxiv

0+阅读 · 4月28日

Measuring What Matters -- or What's Convenient?: Robustness of LLM-Based Scoring Systems to Construct-Irrelevant Factors

Arxiv

0+阅读 · 3月26日

Decidable By Construction: Design-Time Verification for Trustworthy AI

Arxiv

0+阅读 · 3月26日

The Stochastic Gap: A Markovian Framework for Pre-Deployment Reliability and Oversight-Cost Auditing in Agentic Artificial Intelligence

Arxiv

0+阅读 · 3月25日

ImplicitRM: Unbiased Reward Modeling from Implicit Preference Data for LLM alignment

Arxiv

0+阅读 · 3月24日

Beyond Benchmark Islands: Toward Representative Trustworthiness Evaluation for Agentic AI

Arxiv

0+阅读 · 3月16日

Towards Scalable Oversight via Partitioned Human Supervision

Arxiv

0+阅读 · 2月24日

Towards More Standardized AI Evaluation: From Models to Agents

Arxiv

0+阅读 · 2月20日

Through the Judge's Eyes: Inferred Thinking Traces Improve Reliability of LLM Raters

Arxiv

0+阅读 · 2月20日

相关基金

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

无界区域椭圆型和抛物型偏微分方程的人工边界条件数值方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员