Online platforms require robust systems to enforce content safety policies at scale. A critical component of these systems is the ability to evaluate the quality of moderation decisions made by both human agents and Large Language Models (LLMs). However, this evaluation is challenging due to the inherent trade-offs between cost, scale, and trustworthiness, along with the complexity of evolving policies. To address this, we present a comprehensive Decision Quality Evaluation Framework developed and deployed at Pinterest. The framework is centered on a high-trust Golden Set (GDS) curated by subject matter experts (SMEs), which serves as a ground truth benchmark. We introduce an automated intelligent sampling pipeline that uses propensity scores to efficiently expand dataset coverage. We demonstrate the framework's practical application in several key areas: benchmarking the cost-performance trade-offs of various LLM agents, establishing a rigorous methodology for data-driven prompt optimization, managing complex policy evolution, and ensuring the integrity of policy content prevalence metrics via continuous validation. The framework enables a shift from subjective assessments to a data-driven and quantitative practice for managing content safety systems.


翻译:在线平台需要强大的系统来大规模执行内容安全策略。这些系统的关键组成部分在于能够评估人工审核员和大语言模型(LLM)所做审核决策的质量。然而,由于成本、规模和可信度之间固有的权衡,以及不断演变的策略复杂性,此类评估极具挑战性。为此,我们提出在Pinterest开发并部署的综合性决策质量评估框架。该框架以领域专家(SME)精心编制的高可信度黄金数据集(GDS)为核心,作为基准事实标准。我们引入了一种基于倾向性评分的自动化智能抽样流程,可高效扩展数据集覆盖范围。我们展示了该框架在多个关键领域的实际应用:评估各类LLM代理的成本-性能权衡、建立数据驱动提示优化的严谨方法、管理复杂的策略演进,以及通过持续验证确保策略内容流行度指标的完整性。该框架实现了从主观评估向数据驱动、量化管理内容安全系统实践的转变。

0
下载
关闭预览

相关内容

Pinterest 是一个自称“个人版猎酷工具”的视觉社交目录网站,看起来像是一面虚拟的灵感墙,收藏丰富多元的设计、视觉艺术图片。  pinterest.com
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
28+阅读 · 2025年2月17日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
《利用 ChatGPT 实现高效事实核查》
专知会员服务
47+阅读 · 2023年10月25日
LinkedIn《贝叶斯优化推荐系统》,IJCAI报告,142页ppt
专知会员服务
52+阅读 · 2021年1月11日
一行命令搞定图像质量评价
计算机视觉life
12+阅读 · 2019年12月31日
推荐系统原理、工程、大厂(Youtube、BAT、TMB)架构干活分享
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员