![]()
作者:Matthew Crowley,Scintil Photonics公司CEO
图1:密集波分复用共封装光学技术(DWDM CPO)的核心优势。(图片来源:Scintil Photonics) 数据中心设计领域流传着这样一句话:“能用铜缆的地方优先用铜缆,非光不可时再采用光学技术。”多年来,业界的务实做法一直是:在物理规律倒逼技术升级前,优先使用成本低廉的铜缆。但如今,人工智能(AI)计算集群正朝着部署百万级图形处理器的“算力工厂”规模迈进,数据中心的成本效益也面临巨大压力,人们发现,这一“非光不可”的技术节点,到来的速度远超所有人的预期。 网络架构师早已清楚,铜缆在高速传输场景下的传输距离存在明显短板,但从基础物理层面剖析其背后原因的人却不多。尽管网络工程师凭借精湛的技术,将铜缆的传输距离和带宽潜力挖掘到了极致,可物理规律的限制终究无法突破,再精妙的工程设计也难以克服铜缆的固有缺陷。理解了这一点,也就能理解为何行业正迫切转向共封装光学技术(CPO)。 铜缆中传输的电信号频率越高,符号率和带宽就越高,可承载的信息也更多。问题在于,信号频率提升的同时,传输距离会大幅缩短,而造成信号损耗的核心原因主要有两个:集肤效应和介质损耗。 集肤效应:电流的“表面聚集”特性 当交流信号在铜缆中传输时,变化的磁场会在导体内部感应出涡流。这些涡流产生的磁场,会与线缆中心的信号磁场相互抵消。信号磁场的变化速度越快,即频率越高,这种抵消效应就越强。 其直接结果是,电流会被“挤压”到导体极薄的表层,这一表层的厚度被称为集肤深度。当前AI数据中心的信号传输常用 53 GHz左右的频率,在这一频率下,铜缆的集肤深度仅为 0.3 µm。如此薄的传输层,仅利用了导体横截面积的不到 1%,导致线缆的电阻急剧飙升,甚至比直流电阻高出 100 倍以上。 介质损耗:绝缘层的“能量耗散” 铜缆信号衰减的另一大元凶是介质损耗。在吉赫级的高频场景下,线缆绝缘介质内的分子无法跟上电场的快速变化节奏。电场的快速波动与分子的滞后响应之间的延迟,会将信号的电磁能转化为热能,造成能量损耗。 双重损耗:铜缆的致命短板 集肤效应与介质损耗共同作用时,会让铜缆的信号损耗随频率升高呈指数级增长。举个直观的例子:在 50 GHz的频率下,即便使用高品质铜缆,在2 m传输距离内,这两种效应造成的损耗就会消耗掉 90% 以上的信号功率预算。铜缆的物理特性决定了其存在一个无法调和的核心矛盾:带宽与传输距离不可兼得。 共封装光学技术的核心优势 光传输的特性与铜缆有着本质区别:光信号不存在易受干扰的漂移电子,能量损耗的自由度极低,每米传输的熵增速度也慢得多。 光子的天然特性,使其能在远距离传输中保持信号的稳定性,这也是为何铜缆的传输距离以“米”为单位,光纤的传输距离以“千米”为单位,而自由空间光通信的传输距离甚至能以“光年”计量。 CPO技术的开发,正是为了将铜缆的应用限制在先进共封装外形尺寸内的超短距离、高带宽链路上,同时利用光学技术实现更长距离的传输。在CPO中,铜缆仅用于极短的电信号路径,通常是通过中介层实现芯片间的连接,而封装外部的通信则由光链路承担。从CPO组件输出的大部分通信信号,都会通过光纤传输,这些光纤能够以极低的损耗将数据传输数米到数公里。 密集波分复用共封装光学技术(DWDM CPO) 如今,AI训练集群的性能瓶颈,已从每秒浮点运算次数(FLOPS)转向带宽需求。在具备一致性内存的扩展网络中,需要新一代网络技术来满足多重要求: l 随着功耗成为数据中心部署的制约因素,需实现每比特更低的能耗; l 由于浮点运算不再是瓶颈,需为每个处理器提供更大带宽; l 随着光纤部署的物理空间受限,需实现更高的集成密度; l 为实现跨机架的横向扩展,需支持更长的传输距离; l 为保持内存域一致性并提高GPU利用率,需要超低的尾部时延; l 还需具备高可靠性和易维护性。 当尾部时延成为核心约束条件时,满足上述要求将大幅提升GPU的利用率(部分模型测算显示,利用率可提升一倍以上),显著降低网络功耗,并改善模型的端到端性能。目前来看,DWDM CPO是唯一能同时满足这些严苛要求的技术路径,其也将给超大规模数据中心运营商带来深远的成本效益变革。 DWDM CPO技术通过在每根光纤上传输多个波长的光,为每个GPU提供多条宽而慢的通道。通过将传输的波长数从 1 路提升至 8 路、16 路乃至更多,这种几何级的扩容规律有望彻底变革AI网络,正如25年前DWDM技术彻底变革了互联网骨干网一样。 DWDM的单信道传输速率约为 50~64 Gbit/s,属于低速传输范畴,这一特性让工程师可将数据编码方式从PAM4简化为NRZ。这一简化省去了多个成本高昂、功耗巨大的信号处理环节,通过精简信号传输路径,实现了功耗与时延的双重降低。 尾部时延,是侵蚀数据中心投资回报率的“隐形杀手”。GPU集群处理数据令牌时,需要持续、可预测的比特流输入。一旦单个比特出现传输延迟,整个集群的其余部分都将陷入闲置,大幅降低处理器利用率。随着集群内处理器数量的增加,出现 p999 级别尾部比特延迟的概率会显著上升,处理器利用率也会随之下降。 如果没有低时延、低功耗、长距离的DWDM CPO技术,网络的扩展规模将受到限制,大语言模型(LLM)的性能也会因此受限。更大规模、更扁平化、低时延的扩展网络,能支撑更大的键值缓存,直接提升模型的上下文窗口大小和内容相关性,有效扩大LLM的实际工作内存。低时延带宽的提升,还有望增加变换器层数,让模型具备更深度的思考和推理能力。简而言之:打破芯片间的通信限制,能让LLM在工作内存中存储更多信息,并在不出现卡顿的情况下完成更多推理步骤。 铜缆在其时代无疑是一项伟大的技术,但它的固有物理限制,让行业迫切需要更先进的网络技术,以此大幅提升超大规模数据中心的投资回报率,拓展LLM的能力边界。再过几年,全铜缆架构的AI数据中心,将会像全铜缆的长途互联网一样,变得难以想象。 超大规模数据中心运营商、投资者、LLM开发者,以及AI基础设施建设的其他参与者,必须重视这一技术趋势:它不仅将彻底重塑数据中心的成本效益格局,更将持续拓展AI的能力边界。率先采用DWDM CPO技术的企业,将在成本、功耗和性能上建立起架构优势;而这些优势,将会随着AI基础设施的规模化建设持续放大。
版权声明: 《激光世界》网站的一切内容及解释权皆归《激光世界》杂志社版权所有,未经书面同意不得转载,违者必究! 《激光世界》杂志社。 |
||||||||||
![]() |
友情链接 |
