With the rapid rise of intelligent data services, modern enterprises increasingly require efficient, multimodal, and cost-effective data analytics infrastructures. However, in ByteDance's production environments, existing systems fall short due to limitations such as I/O-inefficient multimodal storage, inflexible query optimization (e.g., failing to optimize multimodal access patterns), and performance degradation caused by resource disaggregation (e.g., loss of data locality in remote storage). To address these challenges, we introduce ByteHouse (https://bytehouse.cloud), a cloud-native data warehouse designed for real-time multimodal data analytics. The storage layer integrates a unified table engine that provides a two-tier logical abstraction and physically consistent layout, SSD-backed cluster-scale cache (CrossCache) that supports shared caching across compute nodes, and virtual file system (NexusFS) that enable efficient local access on compute nodes. The compute layer supports analytical, batch, and incremental execution modes, with tailored optimizations for hybrid queries (e.g., runtime filtering over tiered vector indexes). The control layer coordinates global metadata and transactions, and features an effective optimizer enhanced by historical execution traces and AI-assisted plan selection. Evaluations on internal and standard workloads show that ByteHouse achieves significant efficiency improvement over existing systems.


翻译:暂无翻译

0
下载
关闭预览

相关内容

2024年数据智能白皮书
专知会员服务
110+阅读 · 2024年7月7日
2023中国数据要素生态研究报告
专知会员服务
49+阅读 · 2024年1月3日
数据中心智能化运维发展研究报告 (2023 年),35页pdf
专知会员服务
63+阅读 · 2023年3月25日
数据要素研究框架,90页ppt
专知会员服务
91+阅读 · 2022年12月24日
《数据中心白皮书(2022年)》
专知会员服务
89+阅读 · 2022年4月24日
数据中心产业图谱研究报告,41页pdf
专知会员服务
55+阅读 · 2022年1月31日
专知会员服务
37+阅读 · 2021年2月26日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
138+阅读 · 2019年12月12日
数据安全研究报告(上)
CCF计算机安全专委会
11+阅读 · 2022年4月18日
《2021—2022中国大数据产业发展报告》
专知
12+阅读 · 2022年1月23日
【数据中台】数据中台技术架构方案
产业智能官
15+阅读 · 2020年5月26日
【数字孪生】超棒PPT解读Digital Twin十大领域应用!
产业智能官
103+阅读 · 2019年3月26日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
讲堂|郑宇:多源数据融合与时空数据挖掘(下)
微软研究院AI头条
18+阅读 · 2017年4月18日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Arxiv
0+阅读 · 4月8日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
9+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
14+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
9+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
12+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
2024年数据智能白皮书
专知会员服务
110+阅读 · 2024年7月7日
2023中国数据要素生态研究报告
专知会员服务
49+阅读 · 2024年1月3日
数据中心智能化运维发展研究报告 (2023 年),35页pdf
专知会员服务
63+阅读 · 2023年3月25日
数据要素研究框架,90页ppt
专知会员服务
91+阅读 · 2022年12月24日
《数据中心白皮书(2022年)》
专知会员服务
89+阅读 · 2022年4月24日
数据中心产业图谱研究报告,41页pdf
专知会员服务
55+阅读 · 2022年1月31日
专知会员服务
37+阅读 · 2021年2月26日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
138+阅读 · 2019年12月12日
相关资讯
数据安全研究报告(上)
CCF计算机安全专委会
11+阅读 · 2022年4月18日
《2021—2022中国大数据产业发展报告》
专知
12+阅读 · 2022年1月23日
【数据中台】数据中台技术架构方案
产业智能官
15+阅读 · 2020年5月26日
【数字孪生】超棒PPT解读Digital Twin十大领域应用!
产业智能官
103+阅读 · 2019年3月26日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
讲堂|郑宇:多源数据融合与时空数据挖掘(下)
微软研究院AI头条
18+阅读 · 2017年4月18日
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员