Online content moderation is essential for maintaining a healthy digital environment, and reliance on AI for this task continues to grow. Consider a user comment using national stereotypes to insult a politician. This example illustrates two critical challenges in real-world scenarios: (1) Co-occurring Violations, where a single post violates multiple policies (e.g., prejudice and personal attacks); (2) Dynamic rules of moderation, where determination of a violation depends on platform-specific guidelines that evolve across contexts . The intersection of co-occurring harms and dynamically changing rules highlights a core limitation of current AI systems: although large language models (LLMs) are adept at following fixed guidelines, their judgment capabilities degrade when policies are unstable or context-dependent . In practice, such shortcomings lead to inconsistent moderation: either erroneously restricting legitimate expression or allowing harmful content to remain online . This raises a critical question for evaluation: Does high performance on existing static benchmarks truly guarantee robust generalization of AI judgment to real-world scenarios involving co-occurring violations and dynamically changing rules?


翻译:在线内容审核对于维护健康的数字环境至关重要,依赖人工智能执行此任务的需求持续增长。考虑一个使用国家刻板印象侮辱政治人物的用户评论。此示例说明了现实场景中的两个关键挑战:(1) 共现违规,即单个帖子违反多项政策(如偏见与人身攻击);(2) 动态审核规则,即违规判定取决于平台特定且随情境演变的指导方针。共现危害与动态变化规则的交叉凸显了当前人工智能系统的核心局限:尽管大语言模型(LLMs)擅长遵循固定准则,但当政策不稳定或依赖情境时,其判断能力会显著下降。实践中,此类缺陷导致审核结果不一致:可能错误限制合法表达,也可能允许有害内容留存于网络。这引发了一个关键的评估问题:在现有静态基准上的高性能是否真正保证了人工智能判断在涉及共现违规与动态变化规则的真实场景中具备稳健的泛化能力?

0
下载
关闭预览

相关内容

《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
41+阅读 · 2023年10月29日
《利用 ChatGPT 实现高效事实核查》
专知会员服务
47+阅读 · 2023年10月25日
专知会员服务
28+阅读 · 2021年8月15日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
医疗健康领域的短文本解析探索----文本纠错
深度学习自然语言处理
10+阅读 · 2020年8月5日
如何构建行业知识图谱(以医疗行业为例)
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
人工智能在战场行动中的演进及伊朗案例
专知会员服务
6+阅读 · 4月18日
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
4+阅读 · 4月18日
【博士论文】面向城市环境的可解释计算机视觉
大语言模型的自改进机制:技术综述与未来展望
《第四代军事特种作战部队选拔与评估》
专知会员服务
3+阅读 · 4月18日
相关VIP内容
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
41+阅读 · 2023年10月29日
《利用 ChatGPT 实现高效事实核查》
专知会员服务
47+阅读 · 2023年10月25日
专知会员服务
28+阅读 · 2021年8月15日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员