SORT: A Systematically Optimized Ranking Transformer for Industrial-scale Recommenders - 专知论文

会员服务 ·

0

系统 · 排序 · 工业级推荐系统 · 系统的系统 · 变换 ·

SORT: A Systematically Optimized Ranking Transformer for Industrial-scale Recommenders

翻译：SORT：面向工业级推荐系统的系统性优化排序Transformer

Chunqi Wang,Bingchao Wu,Taotian Pang,Jiahao Wang,Jie Yang,Jia Liu,Hao Zhang,Hai Zhu,Lei Shen,Shizhun Wang,Bing Wang,Xiaoyi Zeng

While Transformers have achieved remarkable success in LLMs through superior scalability, their application in industrial-scale ranking models remains nascent, hindered by the challenges of high feature sparsity and low label density. In this paper, we propose SORT (Systematically Optimized Ranking Transformer), a scalable model designed to bridge the gap between Transformers and industrial-scale ranking models. We address the high feature sparsity and low label density challenges through a series of optimizations, including request-centric sample organization, local attention, query pruning and generative pre-training. Furthermore, we introduce a suite of refinements to the tokenization, multi-head attention (MHA), and feed-forward network (FFN) modules, which collectively stabilize the training process and enlarge the model capacity. To maximize hardware efficiency, we optimize our training system to elevate the model FLOPs utilization (MFU) to 22%. Extensive experiments demonstrate that SORT outperforms strong baselines and exhibits excellent scalability across data size, model size and sequence length, while remaining flexible at integrating diverse features. Finally, online A/B testing in large-scale e-commerce scenarios confirms that SORT achieves significant gains in key business metrics, including orders (+6.35%), buyers (+5.97%) and GMV (+5.47%), while simultaneously halving latency (-44.67%) and doubling throughput (+121.33%).

翻译：尽管Transformer凭借卓越的可扩展性在大型语言模型中取得了显著成功，但其在工业级排序模型中的应用仍处于起步阶段，主要受限于高特征稀疏性和低标签密度的挑战。本文提出SORT（系统性优化排序Transformer），一种旨在弥合Transformer与工业级排序模型之间差距的可扩展模型。我们通过一系列优化方案应对高特征稀疏性和低标签密度问题，包括以请求为中心的样本组织、局部注意力机制、查询剪枝和生成式预训练。此外，我们对分词模块、多头注意力（MHA）模块和前馈网络（FFN）模块进行了系统性改进，这些改进共同稳定了训练过程并扩展了模型容量。为最大化硬件效率，我们优化了训练系统，将模型浮点运算利用率（MFU）提升至22%。大量实验表明，SORT在各项基准测试中表现优异，并在数据规模、模型规模和序列长度维度展现出卓越的可扩展性，同时能灵活整合多样化特征。最终，在大规模电商场景的在线A/B测试中，SORT在关键业务指标上取得显著提升：订单量（+6.35%）、购买用户数（+5.97%）和交易总额（+5.47%），同时实现延迟减半（-44.67%）与吞吐量翻倍（+121.33%）。

0

相关内容

Transformer在药物发现及其他领域的应用综述

Transformer在药物发现及其他领域的应用综述

专知会员服务

17+阅读 · 2024年9月3日

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

专知会员服务

34+阅读 · 2023年9月13日

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

专知会员服务

23+阅读 · 2023年7月20日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

Google最新《高效Transformers》2022综述大全，阐述九大类提升Transformers效率方式

Google最新《高效Transformers》2022综述大全，阐述九大类提升Transformers效率方式

专知会员服务

97+阅读 · 2022年3月18日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

如何使用TensorFlow 排序构建推荐系统? How to build a recommendation system using TensorFlow Ranking?

如何使用TensorFlow 排序构建推荐系统? How to build a recommendation system using TensorFlow Ranking?

专知会员服务

19+阅读 · 2022年3月13日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

专知会员服务

69+阅读 · 2021年3月18日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

自动特征工程在推荐系统中的研究

自动特征工程在推荐系统中的研究

DataFunTalk

10+阅读 · 2019年12月20日

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

12+阅读 · 2019年1月8日

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

最大化接收工件总利益的在线排序研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义混杂系统的降阶分析与应用

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

若干新型车间作业排序问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂生产制造环境下的排序问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

订单排序模型及其最优性研究

国家自然科学基金

2+阅读 · 2014年12月31日

工件可拒绝的折衷排序和在线排序

国家自然科学基金

0+阅读 · 2014年12月31日

EnTransformer: A Deep Generative Transformer for Multivariate Probabilistic Forecasting

Arxiv

0+阅读 · 3月12日

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

Arxiv

0+阅读 · 3月9日

Massive Memorization with Hundreds of Trillions of Parameters for Sequential Transducer Generative Recommenders

Arxiv

0+阅读 · 2月25日

GrIT: Group Informed Transformer for Sequential Recommendation

Arxiv

0+阅读 · 2月23日

Understanding Transformer Optimization via Gradient Heterogeneity

Arxiv

0+阅读 · 2月18日

MixFormer: Co-Scaling Up Dense and Sequence in Industrial Recommenders

Arxiv

0+阅读 · 2月15日

Statistical benchmarking of transformer models in low signal-to-noise time-series forecasting

Arxiv

0+阅读 · 2月10日

Transformers Are Born Biased: Structural Inductive Biases at Random Initialization and Their Practical Consequences

Arxiv

0+阅读 · 2月5日

Learnable Permutation for Structured Sparsity on Transformer Models

Arxiv

0+阅读 · 1月30日

Understanding Transformer Optimization via Gradient Heterogeneity

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

工业级推荐系统

系统的系统

最新内容

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

10+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

3+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

8+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

5+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

10+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

20+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

12+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

相关VIP内容

Transformer在药物发现及其他领域的应用综述

Transformer在药物发现及其他领域的应用综述

专知会员服务

17+阅读 · 2024年9月3日

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

专知会员服务

34+阅读 · 2023年9月13日

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

专知会员服务

23+阅读 · 2023年7月20日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

Google最新《高效Transformers》2022综述大全，阐述九大类提升Transformers效率方式

Google最新《高效Transformers》2022综述大全，阐述九大类提升Transformers效率方式

专知会员服务

97+阅读 · 2022年3月18日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

如何使用TensorFlow 排序构建推荐系统? How to build a recommendation system using TensorFlow Ranking?

如何使用TensorFlow 排序构建推荐系统? How to build a recommendation system using TensorFlow Ranking?

专知会员服务

19+阅读 · 2022年3月13日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

专知会员服务

69+阅读 · 2021年3月18日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能在全球军事与武器工业中的应用、方法论与影响》

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

自动特征工程在推荐系统中的研究

自动特征工程在推荐系统中的研究

DataFunTalk

10+阅读 · 2019年12月20日

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

12+阅读 · 2019年1月8日

相关论文

EnTransformer: A Deep Generative Transformer for Multivariate Probabilistic Forecasting

Arxiv

0+阅读 · 3月12日

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

Arxiv

0+阅读 · 3月9日

Massive Memorization with Hundreds of Trillions of Parameters for Sequential Transducer Generative Recommenders

Arxiv

0+阅读 · 2月25日

GrIT: Group Informed Transformer for Sequential Recommendation

Arxiv

0+阅读 · 2月23日

Understanding Transformer Optimization via Gradient Heterogeneity

Arxiv

0+阅读 · 2月18日

MixFormer: Co-Scaling Up Dense and Sequence in Industrial Recommenders

Arxiv

0+阅读 · 2月15日

Statistical benchmarking of transformer models in low signal-to-noise time-series forecasting

Arxiv

0+阅读 · 2月10日

Transformers Are Born Biased: Structural Inductive Biases at Random Initialization and Their Practical Consequences

Arxiv

0+阅读 · 2月5日

Learnable Permutation for Structured Sparsity on Transformer Models

Arxiv

0+阅读 · 1月30日

Understanding Transformer Optimization via Gradient Heterogeneity

Arxiv

0+阅读 · 1月30日

相关基金

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

最大化接收工件总利益的在线排序研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义混杂系统的降阶分析与应用

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

若干新型车间作业排序问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂生产制造环境下的排序问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

订单排序模型及其最优性研究

国家自然科学基金

2+阅读 · 2014年12月31日

工件可拒绝的折衷排序和在线排序

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员