The growing computational demands of artificial intelligence (AI) are challenging conventional electronics, making photonic computing a promising alternative. However, existing photonic architectures face fundamental scalability and reliability barriers. This paper introduces SKYLIGHT, a scalable 3D photonic in-memory tensor core architecture designed for real-time AI inference. By co-designing its topology, wavelength routing, accumulation, and programming in a 3D stack, SKYLIGHT overcomes key limitations. Its innovations include a low-loss 3D Si/SiN crossbar topology, a thermally robust non-micro-ring resonator (MRR)-based wavelength-division multiplexing (WDM) component, a hierarchical signal accumulation using a multi-port photodetector (PD), and optically programmed non-volatile phase-change material (PCM) weights. Importantly, SKYLIGHT enables in-situ weight updates that support label-free, layer-local learning (e.g., forward-forward local updates) in addition to inference. Using SimPhony for system-level modeling, we show that a single 144 x 256 SKYLIGHT core is feasible within a single reticle and delivers 342.1 TOPS at 23.7 TOPS/W, enabling ResNet-50 inference at 1212 FPS with 27 mJ per image, and achieves 84.17 FPS/W end-to-end (1.61 x higher than an NVIDIA RTX PRO 6000 Blackwell GPU) under the same workload in real-time measurements. System-level evaluations on four representative machine learning tasks, including unsupervised local self-learning, demonstrate SKYLIGHT's robustness to realistic hardware non-idealities (low-bit quantization and signal-proportional analog noise capturing modulation, PCM programming, and readout variations). With noise-aware training, SKYLIGHT maintains high task accuracy, validating its potential as a comprehensive solution for energy-efficient, large-scale photonic AI accelerators.


翻译:人工智能(AI)日益增长的计算需求对传统电子计算提出了挑战,使得光子计算成为一种有前景的替代方案。然而,现有的光子架构面临着根本性的可扩展性和可靠性障碍。本文介绍了SKYLIGHT,一种专为实时AI推理设计的可扩展三维光子内存张量核架构。通过在三维堆叠中协同设计其拓扑结构、波长路由、累加和编程方式,SKYLIGHT克服了关键限制。其创新包括:低损耗的三维硅/氮化硅交叉开关拓扑结构、基于非微环谐振器(MRR)的热稳健波分复用(WDM)组件、使用多端口光电探测器(PD)的分层信号累加,以及光编程非易失性相变材料(PCM)权重。重要的是,SKYLIGHT支持原位权重更新,除了推理外,还能实现无标签、层局部的学习(例如前向-前向局部更新)。利用SimPhony进行系统级建模,我们证明单个144 x 256的SKYLIGHT核心在单个光罩内是可行的,并能提供342.1 TOPS的算力和23.7 TOPS/W的能效,使得ResNet-50推理达到1212 FPS,每张图像能耗27 mJ;在实时测量的相同工作负载下,其端到端能效达到84.17 FPS/W(比NVIDIA RTX PRO 6000 Blackwell GPU高1.61倍)。在四个代表性机器学习任务(包括无监督局部自学习)上的系统级评估表明,SKYLIGHT对实际硬件非理想因素(低位宽量化、与信号成比例的模拟噪声捕获调制、PCM编程和读出变化)具有鲁棒性。通过噪声感知训练,SKYLIGHT保持了较高的任务精度,验证了其作为高效能、大规模光子AI加速器完整解决方案的潜力。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
《面向边缘AI应用的高性能高能效架构探索》156页
专知会员服务
35+阅读 · 2025年4月12日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
20+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员