With the rapid rise of intelligent data services, modern enterprises increasingly require efficient, multimodal, and cost-effective data analytics infrastructures. However, in ByteDance's production environments, existing systems fall short due to limitations such as I/O-inefficient multimodal storage, inflexible query optimization (e.g., failing to optimize multimodal access patterns), and performance degradation caused by resource disaggregation (e.g., loss of data locality in remote storage). To address these challenges, we introduce ByteHouse (https://bytehouse.cloud), a cloud-native data warehouse designed for real-time multimodal data analytics. The storage layer integrates a unified table engine that provides a two-tier logical abstraction and physically consistent layout, SSD-backed cluster-scale cache (CrossCache) that supports shared caching across compute nodes, and virtual file system (NexusFS) that enable efficient local access on compute nodes. The compute layer supports analytical, batch, and incremental execution modes, with tailored optimizations for hybrid queries (e.g., runtime filtering over tiered vector indexes). The control layer coordinates global metadata and transactions, and features an effective optimizer enhanced by historical execution traces and AI-assisted plan selection. Evaluations on internal and standard workloads show that ByteHouse achieves significant efficiency improvement over existing systems.


翻译:随着智能数据服务的迅速兴起,现代企业对高效、多模态且成本效益高的数据分析基础设施的需求日益增长。然而,在字节跳动的生产环境中,现有系统因诸多限制而表现不足,例如I/O效率低下的多模态存储、不灵活的查询优化(例如未能优化多模态访问模式),以及资源解耦导致的性能下降(例如远程存储中数据局部性的丧失)。为应对这些挑战,我们推出了ByteHouse(https://bytehouse.cloud),一个专为实时多模态数据分析设计的云原生数据仓库。其存储层集成了一个统一的表引擎,提供两层逻辑抽象和物理一致的布局;基于SSD的集群级缓存(CrossCache),支持计算节点间的共享缓存;以及虚拟文件系统(NexusFS),实现计算节点上的高效本地访问。计算层支持分析、批处理和增量执行模式,并针对混合查询(例如对分层向量索引的运行时过滤)进行了定制优化。控制层协调全局元数据和事务,并配备了一个通过历史执行轨迹和AI辅助计划选择增强的有效优化器。在内部和标准工作负载上的评估表明,ByteHouse相比现有系统实现了显著的效率提升。

0
下载
关闭预览

相关内容

国家标准《信息技术云计算参考架构》
专知会员服务
35+阅读 · 2024年5月24日
基于深度学习的类别增量学习算法综述
专知会员服务
43+阅读 · 2023年8月10日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
43+阅读 · 2022年4月15日
《企业物联网平台技术白皮书(2022)》31页PDF,阿里云
专知会员服务
24+阅读 · 2022年3月23日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
OLAP引擎这么多,为什么苏宁选择用Druid?
51CTO博客
12+阅读 · 2018年12月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员