Effective e-commerce risk management requires in-depth case investigations to identify emerging fraud patterns in highly adversarial environments. However, manual investigation typically requires analyzing the associations and couplings among multi-source heterogeneous data, a labor-intensive process that limits efficiency. While Large Language Models (LLMs) show promise in automating these analyses, their deployment is hindered by the complexity of risk scenarios and the sparsity of long-tail domain knowledge. To address these challenges, we propose Sherlock, a framework that integrates structured domain knowledge with LLM-based reasoning through three core modules. First, we construct a domain Knowledge Base (KB) by distilling structured expertise from heterogeneous knowledge sources. Second, we design a two-stage retrieval-augmented generation strategy tailored for case investigation, which combines input contextual augmentation with a Reflect & Refine module to fully leverage the KB for improved analysis quality. Finally, we develop an integrated platform for operations and annotation to drive a self-evolving data flywheel. By combining real-time hotfixes through KB updates with periodic logic alignment via post-training, we facilitate continuous system evolution to counteract adversarial drifts. Online A/B tests at JD dot com demonstrate that Sherlock achieves an 82% Expert Acceptance Rate (EAR) and a 386.7% increase in daily investigation throughput. An additional 90-day evaluation shows that the flywheel successfully recovers from performance decay caused by changing tactics twice, raising the EAR ceiling by around 3.5% through autonomous model updates.


翻译:有效的电商风险管理需要在高度对抗的环境中开展深度案例调查,以识别新兴欺诈模式。然而,人工调查通常需要分析多源异构数据间的关联与耦合关系,这种劳动密集型过程严重制约了效率。尽管大语言模型在自动化分析方面展现出潜力,但其部署仍受限于风险场景的复杂性与长尾领域知识的稀疏性。为应对这些挑战,我们提出Sherlock框架,通过三个核心模块将结构化领域知识与基于大模型的推理能力相融合。首先,我们从异构知识源中提炼结构化专家经验,构建领域知识库;其次,针对案例调查场景设计两阶段检索增强生成策略,通过融合输入上下文增强与反思优化模块充分挖掘知识库潜力以提升分析质量;最后,我们开发了一体化运营与标注平台,驱动自演进数据飞轮。通过知识库更新的实时热修复与后训练阶段周期性逻辑对齐,我们实现了系统的持续演化以对抗对抗性漂移。在京东的在线A/B测试中,Sherlock实现了82%的专家接受率与每日调查吞吐量386.7%的增长。额外90天评估表明,该数据飞轮能够成功从两次因策略变化导致的性能衰退中恢复,并通过自主模型更新将专家接受率上限提升约3.5%。

0
下载
关闭预览

相关内容

通过学习、实践或探索所获得的认识、判断或技能。
《商用大语言模型的升级风险管理:国家安全运用》
专知会员服务
17+阅读 · 2025年8月7日
《人工智能军事系统的风险分级监管路径》
专知会员服务
23+阅读 · 2025年7月10日
金融风控领域的大模型落地实践
专知会员服务
24+阅读 · 2025年1月2日
多视角看大模型安全及实践
专知会员服务
70+阅读 · 2024年4月1日
【干货书】机器学习的金融风险管理与Python,194页pdf
专知会员服务
122+阅读 · 2022年7月1日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
5+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
2+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
1+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
1+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员