FOUNDv2: Learning Unified User Quantized Tokenizers for User Representation - 专知论文

会员服务 ·

0

表示 · 分词 · 存储 · 离散 · 多尺度 ·

FOUNDv2: Learning Unified User Quantized Tokenizers for User Representation

翻译：FOUNDv2：面向用户表示的统一用户量化分词器学习

Chuan He,Yang Chen,Bin Dou,Wuliang Huang,Baokun Wang,Yongchao Liu,Xing Fu,Yu Cheng,Chuntao Hong,Weiqiang Wang,Zhongle Xie,Jiajun Zheng,Xin-Wei Yao

User representation learning serves as a fundamental pillar for personalized services on large-scale web platforms. Despite its importance, conventional continuous embedding methods face significant challenges, including the lack of a unified paradigm for multi-source data integration, prohibitive storage overhead due to low information density, and the lack of multi-scale modeling granularity. To overcome these limitations, we introduce FOUNDv2, a comprehensive user representation scheme centered on the Unified User Quantized Tokenizer U2QT) framework. FOUNDv2 transforms heterogeneous user data into a standardized discrete token space through a robust two-stage architecture. Specifically, the framework first extracts compact feature representations and subsequently employs a multi-view RQ-VAE to discretize them into storage-efficient tokens using shared and source-specific codebooks. To empower these representations with predictive intelligence, we further design multi-scale alignment objectives to capture both fine-grained behavioral dependencies and macro-temporal periodicity. Extensive experiments on various benchmarks demonstrate that FOUNDv2 consistently outperforms task-specific baselines while achieving substantial reductions in storage and computational costs. Finally, the large-scale deployment of FOUNDv2 on Alipay validates its practical scalability and efficiency across diverse industrial scenarios. The main code is available at: https://github.com/chuanhe1999/FOUNDv2.

翻译：用户表示学习是大规模网络平台个性化服务的基础支柱。尽管其重要性不言而喻，传统的连续嵌入方法仍面临重大挑战，包括缺乏用于多源数据融合的统一范式、因信息密度低导致的过高存储开销，以及缺乏多尺度建模粒度。为克服这些限制，我们提出了FOUNDv2，这是一个以统一用户量化分词器（Unified User Quantized Tokenizer, U2QT）框架为核心的综合用户表示方案。FOUNDv2通过一种稳健的两阶段架构，将异构用户数据转化为标准化的离散分词空间。具体而言，该框架首先提取紧凑的特征表示，随后采用多视角残差量化变分自编码器（Multi-view RQ-VAE），利用共享和源特定码本将其离散化为存储高效的离散化码。为赋予这些表示预测智能，我们进一步设计了多尺度对齐目标，以捕捉细粒度的行为依赖性和宏观时间周期性。在各种基准测试上的广泛实验表明，FOUNDv2在实现存储和计算成本大幅降低的同时，始终优于任务特定基线。最后，FOUNDv2在支付宝上的大规模部署验证了其在多样化工业场景中的实用可扩展性和效率。主要代码可在 https://github.com/chuanhe1999/FOUNDv2 获取。

0

相关内容

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

专知会员服务

18+阅读 · 2024年3月15日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

什么是类增量学习？南京大学最新《深度类增量学习》综述论文，30页pdf涵盖249篇文献

什么是类增量学习？南京大学最新《深度类增量学习》综述论文，30页pdf涵盖249篇文献

专知会员服务

38+阅读 · 2023年2月10日

【CVPR 2022】基于本地正则化和稀疏化差分隐私的联邦学习，Differentially Private Federated Learning with Local Regularization and Sparsification

【CVPR 2022】基于本地正则化和稀疏化差分隐私的联邦学习，Differentially Private Federated Learning with Local Regularization and Sparsification

专知会员服务

17+阅读 · 2022年3月19日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

18+阅读 · 2021年10月17日

【CVPR2021】DAML：针对开放领域泛化的领域增广元学习方法

【CVPR2021】DAML：针对开放领域泛化的领域增广元学习方法

专知会员服务

20+阅读 · 2021年4月21日

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

专知会员服务

69+阅读 · 2020年6月19日

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

专知会员服务

36+阅读 · 2020年5月10日

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

专知会员服务

30+阅读 · 2020年4月22日

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

专知会员服务

79+阅读 · 2020年3月19日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

【知识图谱】基于知识图谱的用户画像技术

【知识图谱】基于知识图谱的用户画像技术

产业智能官

103+阅读 · 2019年1月9日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

教你用Flink实现超大规模用户行为分析（附代码、视频教程）

教你用Flink实现超大规模用户行为分析（附代码、视频教程）

THU数据派

12+阅读 · 2017年9月29日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于主题网络的用户内在兴趣发现及演进研究

国家自然科学基金

0+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境多用户的情景化动态信任决策模型及算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

Beyond Retrieval: Learning Compact User Representations for Scalable LLM Personalization

Arxiv

0+阅读 · 6月13日

FedSPC: Shared Parameter Correction for Personalized Federated Learning

Arxiv

0+阅读 · 6月11日

Towards Personalized Federated Learning for Dysarthric Speech Recognition

Arxiv

0+阅读 · 6月11日

MOTOR: Learning ID-free Item Representation with Token Crossing for Embedding-based Multimodal Recommendation

Arxiv

0+阅读 · 6月10日

RePercENT: Scaling Disentangled Representation Learning Beyond Two Modalities

Arxiv

0+阅读 · 6月3日

Beyond Retrieval: Learning Compact User Representations for Scalable LLM Personalization

Arxiv

0+阅读 · 6月3日

StreamSplit: Continuous Audio Representation Learning via Uncertainty-Guided Adaptive Splitting

Arxiv

0+阅读 · 5月26日

GUIDE-VAE: Advancing Data Generation with User Information and Pattern Dictionaries

Arxiv

0+阅读 · 5月18日

VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing

Arxiv

0+阅读 · 5月14日

TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

1+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

专知会员服务

18+阅读 · 2024年3月15日

Meta-Transformer：多模态学习的统一框架

Meta-Transformer：多模态学习的统一框架

专知会员服务

59+阅读 · 2023年7月21日

什么是类增量学习？南京大学最新《深度类增量学习》综述论文，30页pdf涵盖249篇文献

什么是类增量学习？南京大学最新《深度类增量学习》综述论文，30页pdf涵盖249篇文献

专知会员服务

38+阅读 · 2023年2月10日

【CVPR 2022】基于本地正则化和稀疏化差分隐私的联邦学习，Differentially Private Federated Learning with Local Regularization and Sparsification

【CVPR 2022】基于本地正则化和稀疏化差分隐私的联邦学习，Differentially Private Federated Learning with Local Regularization and Sparsification

专知会员服务

17+阅读 · 2022年3月19日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

18+阅读 · 2021年10月17日

【CVPR2021】DAML：针对开放领域泛化的领域增广元学习方法

【CVPR2021】DAML：针对开放领域泛化的领域增广元学习方法

专知会员服务

20+阅读 · 2021年4月21日

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

【CVPR2020】在线深度聚类的无监督表示学习, Online Deep Clustering for Unsupervised Representation Learning

专知会员服务

69+阅读 · 2020年6月19日

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

Time2Vec：学习时间的向量表示，Time2Vec: Learning a Vector Representation of Time

专知会员服务

36+阅读 · 2020年5月10日

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

【单样本(One-shot)学习】《One-shot learning》by Pragati Baheti Part 1/2: Definitions and fundamental techniques

专知会员服务

30+阅读 · 2020年4月22日

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

专知会员服务

79+阅读 · 2020年3月19日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

【知识图谱】基于知识图谱的用户画像技术

【知识图谱】基于知识图谱的用户画像技术

产业智能官

103+阅读 · 2019年1月9日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

教你用Flink实现超大规模用户行为分析（附代码、视频教程）

教你用Flink实现超大规模用户行为分析（附代码、视频教程）

THU数据派

12+阅读 · 2017年9月29日

相关论文

Beyond Retrieval: Learning Compact User Representations for Scalable LLM Personalization

Arxiv

0+阅读 · 6月13日

FedSPC: Shared Parameter Correction for Personalized Federated Learning

Arxiv

0+阅读 · 6月11日

Towards Personalized Federated Learning for Dysarthric Speech Recognition

Arxiv

0+阅读 · 6月11日

MOTOR: Learning ID-free Item Representation with Token Crossing for Embedding-based Multimodal Recommendation

Arxiv

0+阅读 · 6月10日

RePercENT: Scaling Disentangled Representation Learning Beyond Two Modalities

Arxiv

0+阅读 · 6月3日

Beyond Retrieval: Learning Compact User Representations for Scalable LLM Personalization

Arxiv

0+阅读 · 6月3日

StreamSplit: Continuous Audio Representation Learning via Uncertainty-Guided Adaptive Splitting

Arxiv

0+阅读 · 5月26日

GUIDE-VAE: Advancing Data Generation with User Information and Pattern Dictionaries

Arxiv

0+阅读 · 5月18日

VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing

Arxiv

0+阅读 · 5月14日

TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

Arxiv

0+阅读 · 5月6日

相关基金

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于主题网络的用户内在兴趣发现及演进研究

国家自然科学基金

0+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境多用户的情景化动态信任决策模型及算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员