Push Down Optimization for Distributed Multi Cloud Data Integration - 专知论文

会员服务 ·

0

引擎 · 数据集 · 云数据 · 集成 · 数据库 ·

Push Down Optimization for Distributed Multi Cloud Data Integration

翻译：分布式多云数据集成中的下推优化

Ravi Kiran Kodali,Vinoth Punniyamoorthy,Akash Kumar Agarwal,Bikesh Kumar,Balakrishna Pothineni,Aswathnarayan Muthukrishnan Kirubakaran,Sumit Saha,Nachiappan Chockalingam

Enterprises increasingly adopt multi cloud architectures to take advantage of diverse database engines, regional availability, and cost models. In these environments, ETL pipelines must process large, distributed datasets while minimizing latency and transfer cost. Push down optimization, which executes transformation logic within database engines rather than within the ETL tool, has proven highly effective in single cloud systems. However, when applied across multiple clouds, it faces challenges related to data movement, heterogeneous SQL engines, orchestration complexity, and fragmented security controls. This paper examines the feasibility of push down optimization in multi cloud ETL pipelines and analyzes its benefits and limitations. It evaluates localized push down, hybrid models, and data federation techniques that reduce cross cloud traffic while improving performance. A case study across Redshift and BigQuery demonstrates measurable gains, including lower end to end runtime, reduced transfer volume, and improved cost efficiency. The study highlights practical strategies that organizations can adopt to improve ETL scalability and reliability in distributed cloud environments.

翻译：企业日益采用多云架构以利用多样化的数据库引擎、区域可用性和成本模型。在这些环境中，ETL管道必须处理大规模分布式数据集，同时最小化延迟和传输成本。下推优化（即在数据库引擎内部而非ETL工具内部执行转换逻辑）已在单云系统中被证明极为有效。然而，当应用于跨多个云环境时，该技术面临数据移动、异构SQL引擎、编排复杂性和碎片化安全控制等挑战。本文探讨了多云ETL管道中下推优化的可行性，并分析了其优势与局限性。研究评估了局部下推、混合模型以及数据联邦技术，这些技术能在提升性能的同时减少跨云流量。通过Redshift和BigQuery的案例研究展示了可量化的收益，包括端到端运行时间缩短、传输数据量减少以及成本效率提升。本研究重点提出了组织可采用的实用策略，以提升分布式云环境中ETL的可扩展性与可靠性。

0

相关内容

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

专知会员服务

5+阅读 · 2月20日

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

专知会员服务

25+阅读 · 2025年8月7日

《美陆军：终端用户设备上地理空间数据的优化策略》最新49页报告

《美陆军：终端用户设备上地理空间数据的优化策略》最新49页报告

专知会员服务

25+阅读 · 2024年10月17日

McGill大学等最新《不确定性决策下的上下文优化方法》综述

McGill大学等最新《不确定性决策下的上下文优化方法》综述

专知会员服务

33+阅读 · 2023年6月25日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知会员服务

147+阅读 · 2022年11月14日

「分布式机器学习系统网络性能优化」研究进展

「分布式机器学习系统网络性能优化」研究进展

专知会员服务

28+阅读 · 2022年10月1日

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

专知会员服务

32+阅读 · 2022年4月5日

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

专知会员服务

20+阅读 · 2022年2月25日

基于双注意力机制和迁移学习的跨领域推荐模型

专知会员服务

48+阅读 · 2020年10月20日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

案例分享 | TensorFlow 大规模稀疏模型异步训练的分布式优化

案例分享 | TensorFlow 大规模稀疏模型异步训练的分布式优化

TensorFlow

14+阅读 · 2020年7月22日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

推荐系统BAT面试题：说说协同过滤的原理

推荐系统BAT面试题：说说协同过滤的原理

七月在线实验室

50+阅读 · 2019年1月30日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

深度学习在推荐系统中的应用综述（最全）

深度学习在推荐系统中的应用综述（最全）

七月在线实验室

17+阅读 · 2018年5月5日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于智慧的下一代网络资源优化机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

多租户数据管理关键技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

多数据中心环境中科学大数据应用的数据布局与执行优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

云市场下云服务商与终端用户间利益均衡的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

Module checking of pushdown multi-agent systems

Arxiv

0+阅读 · 2月15日

Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems

Arxiv

0+阅读 · 2月12日

Performance Cost Tradeoffs in Intelligent Load Balancing for Multi Data Center Cloud Systems: From Static Policies to Adaptive Resource Distribution

Arxiv

0+阅读 · 2月10日

MDL: A Unified Multi-Distribution Learner in Large-scale Industrial Recommendation through Tokenization

Arxiv

0+阅读 · 2月10日

SMES: Towards Scalable Multi-Task Recommendation via Expert Sparsity

Arxiv

0+阅读 · 2月10日

MDL: A Unified Multi-Distribution Learner in Large-scale Industrial Recommendation through Tokenization

Arxiv

0+阅读 · 2月7日

Elastic Data Transfer Optimization with Hybrid Reinforcement Learning

Arxiv

0+阅读 · 2月7日

Dataset Distillation as Pushforward Optimal Quantization

Arxiv

0+阅读 · 2月6日

MAPGD: Multi-Agent Prompt Gradient Descent for Collaborative Prompt Optimization

Arxiv

0+阅读 · 2月3日

Online Rack Placement in Large-Scale Data Centers: Online Sampling Optimization and Deployment

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

最新内容

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

2+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

3+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

9+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

5+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

3+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

3+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

7+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

6+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

9+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

11+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

6+阅读 · 7月25日

相关VIP内容

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

专知会员服务

5+阅读 · 2月20日

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

专知会员服务

25+阅读 · 2025年8月7日

《美陆军：终端用户设备上地理空间数据的优化策略》最新49页报告

《美陆军：终端用户设备上地理空间数据的优化策略》最新49页报告

专知会员服务

25+阅读 · 2024年10月17日

McGill大学等最新《不确定性决策下的上下文优化方法》综述

McGill大学等最新《不确定性决策下的上下文优化方法》综述

专知会员服务

33+阅读 · 2023年6月25日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知会员服务

147+阅读 · 2022年11月14日

「分布式机器学习系统网络性能优化」研究进展

「分布式机器学习系统网络性能优化」研究进展

专知会员服务

28+阅读 · 2022年10月1日

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

专知会员服务

32+阅读 · 2022年4月5日

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

专知会员服务

20+阅读 · 2022年2月25日

基于双注意力机制和迁移学习的跨领域推荐模型

专知会员服务

48+阅读 · 2020年10月20日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

美空军新型反无人机部队初探

博士论文 | 面向大模型推理的内存高效算法

《无人系统互操作性导论——无人系统联合架构（JAUS）》

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

案例分享 | TensorFlow 大规模稀疏模型异步训练的分布式优化

案例分享 | TensorFlow 大规模稀疏模型异步训练的分布式优化

TensorFlow

14+阅读 · 2020年7月22日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

推荐系统BAT面试题：说说协同过滤的原理

推荐系统BAT面试题：说说协同过滤的原理

七月在线实验室

50+阅读 · 2019年1月30日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

【论文推荐】最新八篇推荐系统相关论文—亿级商品嵌入、主动学习、树深度模型、知识图谱、注意力感知、矩阵分解、神经个性化嵌入

专知

15+阅读 · 2018年6月15日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

深度学习在推荐系统中的应用综述（最全）

深度学习在推荐系统中的应用综述（最全）

七月在线实验室

17+阅读 · 2018年5月5日

相关论文

Module checking of pushdown multi-agent systems

Arxiv

0+阅读 · 2月15日

Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems

Arxiv

0+阅读 · 2月12日

Performance Cost Tradeoffs in Intelligent Load Balancing for Multi Data Center Cloud Systems: From Static Policies to Adaptive Resource Distribution

Arxiv

0+阅读 · 2月10日

MDL: A Unified Multi-Distribution Learner in Large-scale Industrial Recommendation through Tokenization

Arxiv

0+阅读 · 2月10日

SMES: Towards Scalable Multi-Task Recommendation via Expert Sparsity

Arxiv

0+阅读 · 2月10日

MDL: A Unified Multi-Distribution Learner in Large-scale Industrial Recommendation through Tokenization

Arxiv

0+阅读 · 2月7日

Elastic Data Transfer Optimization with Hybrid Reinforcement Learning

Arxiv

0+阅读 · 2月7日

Dataset Distillation as Pushforward Optimal Quantization

Arxiv

0+阅读 · 2月6日

MAPGD: Multi-Agent Prompt Gradient Descent for Collaborative Prompt Optimization

Arxiv

0+阅读 · 2月3日

Online Rack Placement in Large-Scale Data Centers: Online Sampling Optimization and Deployment

Arxiv

0+阅读 · 1月16日

相关基金

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于智慧的下一代网络资源优化机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

多租户数据管理关键技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

多数据中心环境中科学大数据应用的数据布局与执行优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

云市场下云服务商与终端用户间利益均衡的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员