用普通光模块实现光突发交换scale-up网络扩容

光纤在线编辑部  2025-02-10 12:36:17  文章来源:本站消息  版权所有,未经许可严禁转载.

导读:为了满足AI集群高带宽域超节点的大节点数、高带宽、低延迟、低成本的要求,默升科技的黄水清发布了《用普通光模块实现光突发交换scale-up网络扩容》的文章,本文提出了利用普通连续模式光模块配合光突发交换构建超大规模scale-up超节点网络,该网络从GPU角度看来是光/电分组交换(OPS/EPS)网络,可实现更大的交换容量和较低的延迟及可控的成本。

2/10/2025,光纤在线讯,为了满足AI集群高带宽域超节点的大节点数、高带宽、低延迟、低成本的要求,默升科技的黄水清发布了《用普通光模块实现光突发交换scale-up网络扩容》的文章,本文提出了利用普通连续模式光模块配合光突发交换构建超大规模scale-up超节点网络,该网络从GPU角度看来是光/电分组交换(OPS/EPS)网络,可实现更大的交换容量和较低的延迟及可控的成本。

        近来随着AI网络的发展,越来越大的大模型参数量要求规模越来越大的超节点网络,即算力芯片之间无收敛全带宽互联的高带宽域。除了节点数量大、节点带宽高这两个挑战外,还要求低延迟、低成本。传统多层交换网络将导致成本和延迟急剧增加,显然不符合需求,所以单层和两层交换scale-up网络成为超节点考虑的重点。

1、单层交换网络的容量分析
2、两层交换网络的容量分析
3、各种超节点技术方案的尝试
4、光突发交换OBS的尝试

        光突发交换OBS技术早在十年前就已经被广泛研究[5],其特点是控制面和数据面分离,不需要从数据包中提取包头信号解析目标地址,而是另辟控制面网络,提前控制高速光开关矩阵中相应的路径完成纳秒级的高速切换,与其同步的数据面信号同时从自发自收的空闲状态完成与目标地址自发自收的空闲状态的光模块之间的收发切换,这两只光模块完成信号交换之后,控制面再给出恢复信号,使这两只光模块都各自恢复到自发自收的空闲状态,等待下一次和其他光模块组成链路交换,这样可以保持所有链路(包括有信号的和空闲的)连续不断链,避免了物理层的突发模式和高速建链的困难。

        OBS避免了OPS对全光存储和全光逻辑器件的需求,供应链相对成熟。但是当年光突发交换OBS主要是针对长途电信网络展开了研究,上千公里的传输使控制面与数据面的同步极为困难,各种软件补偿方法尝试之后并没有商用普及。近年来AI集群的发展给这种“失败的技术”带来了新生,因为AI集群所有设备都在同一个房间(Warehouse Scale),有报道超过50m的scale-up网络将必然影响GPU的吞吐效率,无论铜缆还是光纤,无论采用什么网络技术方案,所以超节点scale-up网络为了低延迟的要求,距离一般小于30m范围,这样控制面和数据面信号同步很容易。而且高速硅基MZI光开关矩阵、SOA、高速高链路预算ER光模块、突发交换ASIC等相关部件的供应链也逐渐成熟 。传统上人们担心成熟的MZI调制器和光开关体积过大,其实在OBS系统中这个问题根本不存在。因为全光交换网络没有光-电-光的转换过程,不存在高速信号的传输距离对损耗的影响,也就是说所有光交换和传输器件/设备放在数米距离范围内的任何地方,互联光纤所产生的损耗、延迟和成本都可以忽略,所以没有必要如CPO/OIO那样必须猬集在很小的空间,各种体积较大的优秀技术首先被一票否决,甚至盲目追求更高的带宽密度,连标准光传输模块都被嫌弃体积太大。现在为了给液冷系统留空间,AI服务器机柜高度从原来不足7英尺增加到17英尺,根本不用担心没有足够的物理空间部署各种大体积的光交换设备。

用光交换矩阵替代Spine电交换机理论上的好处是极为明显的:

1)光交换本身没有数据面拆包封包的过程,所以理论上延迟为零;
2)利用成熟的硅光MZI工艺生产的高速光开关芯片成本较低,最多可以把相比Leaf层的Spine层交换机成本从1/2到数量级地降低,光模块数量也减少一半,如表1,从根本上解决了网络成本占比高的难题。即使考虑到高速硅光开关波长窗口窄,不用波分复用,全部单一波长,成本也很低。
3)光交换矩阵及其控制面的功耗可以忽略。
4)还可以达到更大的交换网络规模(下面将详细讨论)。
5)拥有光交换共同的优点,协议透明,升级友好。可池化算力和存储资源,可在光域开辟冗余路由提升网络可生存性和无故障工作时间。


表1、 OBS替代Spine电交换机的成本比较

        但是这样的方案还存在很多技术难题:首先是高速光开关阵列难以做到很宽的工作波长窗口、偏振不敏感、低插损和低串扰;高链路预算的800G ER8光模块可能存在复杂的四波混频干扰现象难以消除。所以采用单一波长的光模块如800G OSFP 8ER可以大幅度降低包括光开关矩阵芯片在内的光器件的实现难度。至于高速光开关的偏振敏感问题,可以将全部光纤换成保偏PMF解决(除了光模块接收的一段可以用SMF),反正scale-up网络的物理距离只有数十米,成本增加不明显,长距离造成的传输延迟首先是GPU无法容忍的。

        当然这样做也是有代价的,光突发交换颗粒从800G降低到100G,就需要8倍数量的光开关矩阵!好在硅基高速光开关芯片的成本已经足够低,这样的变化对系统总成本影响甚微。所以如表1所示,相比传统两层电交换网络减少1/3的交换机和一半的光模块,增加了Spine层光交换矩阵,这部分的成本与Leaf层(电)交换机的成本之比最终约为1/7,未来随着硅光开关批量的增大,半导体工艺的特点也保证其成本还会继续降低。

        与纯电交换网络引入MPS技术的目的类似,为了进一步扩大两层交换网络的规模,降低光交换矩阵的技术难度,我们在引入OBS的基础上进一步引入MPS技术构建8192以太网超节点,如图5,将原来800G的交换颗粒分散到多条单波长100G路径,不需要波分复用,不需要波长交换,这更符合硅光技术的特点。多路径网络必须解决的问题是:每一个数据包无误码地按照理想的顺序传输是很困难的,经过不同的实时光/电交换多路径,最后到达同一个目标地址,封装成一个大数据包,还要有足够低的丢包率。

        每个GPU的I/O总带宽是400GB,其中100GB=800Gbpcs通过NIC连接scale-out网络,用于scale-up网络互联的带宽是300GB=2400Gbps,分别包喷洒到24个彼此独立的数据平面(Plane),每一个数据包都是100G的交换颗粒。假设GPU(1,4)和GPU(32,256)需要建立一个100G的链路,通过AEC分别传输到交换机(1,24)和(32,24),这两个交换机之间通过256张(Page)彼此独立的光交换矩阵互联。因为这两个交换机都只有32个上行端口,8*32=256个独立链路;每个节点只有256个GPU,每个GPU只有一个100G链路通过该数据平面,所以至少存在一张(Page)空闲链路,假如交换机(1,24)光纤(1,24,256)光交换芯片(256,24)光纤(32,24,256)交换机(32,24)是空闲链路(如图中红色所示),所谓空闲链路就是说光模块自己的发端最后输入到自己的收端。所谓光突发交换就是这两对收发光信号在光交换矩阵的纳秒级切换时间内完成路由互换,因为两个光模块的这两条通道速率严格一致;光发射功率和接收灵敏度也都差不多,现在光交换矩阵都是路径无关的,理论上光路切换时插损不变,所以输入到光模块的光信号在切换前后的幅度也基本一致,仅仅纳秒级的切换时间并不会造成Serdes的断链和重新建链,及其导致的一系列问题。当这包信号完成传输之后,控制面再送出控制信号将这两对光模块的光路切换回来,各自恢复到自发自收的空闲状态,等待下一次和另外光模块之间的突发交换。所以光模块可以用普通的连续模式高链路预算800G OSFP 8ER光模块。

        另外一点值得注意的是:从光和光器件的传输侧角度来看,Spine层交换没有光-电-光的转换过程、控制面和数据面分离、没有引入不成熟的纯光SRAM和纯光逻辑器件在光域解析包地址,系典型的光突发交换OBS;但是从电和GPU的应用侧角度来看,图5和图3没有本质的区别,电的包交换和光的包交换都是逐包的分组交换(OPS/EPS),该做的两层胖树网络的交换工作一样不少,差别是原本由Spine层电交换机做的phy以上层工作因为光交换矩阵做不了,只好逐包分散到相关的Leaf层交换机,让Leaf层交换机工作量翻倍,仅此而已。这有效避免了光线路交换OCS做GPU互联时难以克服的多播、突发延迟大,软件通用性受限等一系列问题。


图5、 引入32x32 OBS的8192超节点scale-up网络

        对每一个32x32光交换矩阵来说,每一个包信号送达的目的地地址(也就是包地址)是5位二进制,25=32,24个独立数据平面(Plane),32*8=256张(Page)光交换矩阵,总共需要24*32*8*32*5路互相独立的控制面信号,由24*32片带OBS控制输出的电交换ASIC芯片提供,所以每片ASIC输出256*5=1280路彼此独立的包地址,系统侧的FPGA将这些包地址传给每一片相关的32*32光交换矩阵,共24*8*32=6144片;光交换矩阵里面器件侧的FPGA又将给它的32*5路互相独立的包地址译码成光交换矩阵基本单元的路地址,去控制每一个2x2光开关(或1x2、2x1)基本单元,切换其Cross/Bar的状态。


表2、 光开关矩阵的成本和光插损比较

        其实N*N大规模光开关矩阵的插损直接与其串联的单元级数,也就是N的对数呈线性关系(2log2N-1),而其基本单元数量与N呈平方关系(5/4N2-2N)[10],所以从理论上看光插损就不是限制光突发交换规模扩大的最大瓶颈,成本才是。而且我们可以将64x64光交换矩阵的最后三级2x1 MZI光开关换成InP 三级Y形耦合器(实际上是81光合波器)加SOA,增益15dB的有源光芯片(不含片内和端面的损耗),成本180$/pcs(绿色部分的光芯片成本可能略有低估)。如表2,至少中等规模的64x64矩阵成本增加可控,对光模块的链路预算要求大幅度降低甚至到0dB左右。因为最后三级相关的八个输入端口总共只有一个输出,有且只有一个输入是有光的,其他都是无光的,SOA难以克服的串扰问题将不存在;它也肯定是连续模式的;所有状态的插损都是路径无关的,也就没有输入光功率大幅度的变化对SOA工作状态的影响。这样甚至可以用供应链最成熟的800G DR8模块替代目前相对少见的800G 8ER模块。

5、同为以太phy的scale-up和scale-out可以两网合一

        随着大模型的进一步发展,加上各种技术和非技术因素的影响,对网络硬件的要求也不仅限于scaling law的暴力美学,例如DeepSeek在高带宽域的scale-up网络规模和带宽受限的现实条件下,通过更大的AI集群也就是更多的GPU或存储节点组成scale-out网络,节点之间通过胖树网络任意互联,以实现更高的性价比、可靠性、通用性和兼容性。当前各种超节点技术如NVLink、UALink、和各种以太超节点大多采用以太phy,因为scale-out网络采用以太网协议已是首选,所以采用以太phy超节点技术除了前面提到的优势外,还有一大优势是更容易将同为以太phy的scale-up和scale-out两网合一,更灵活地共享GPU的全部I/O带宽资源,可以动态实时大幅度地调节超节点内每一个GPU的scale-out/scale-up收敛比。特别是scale-up网络引入OBS之后,高带宽域的交换网络能够全带宽覆盖的节点数大幅度增加,延迟和成本可控,很大程度上满足了原本必须采用高收敛比的scale-out网络才能达成的东西向网络规模扩张的目的。超节点的规模变得越来越大,在GPU总数一定的前提下,较大的超节点其数量就会比较少,原本scale-out网络需要的大规模OCS也就会变成中小规模,更加容易实现。


图6、 scale-up/scale-out两网合一超大GPU集群

        如图6,这个26万卡GPU集群可以统一采用51.2T电交换机和800G光模块,就是说除了带OBS控制输出的交换ASIC(scale-out部分可以关闭Spine层OBS控制输出等功能,仅保留Leaf层电交换的基本功能,由软件和OCS 控制器直接控制所有光开关基本单元完成scale-out网络的光调度),其他部件全部是成熟的供应链。即使这个特殊的交换ASIC也仅仅是把芯片内部控制电CrossBar的控制面信号引出到芯片外部,同时控制光CrossBar;同时还协助Spine层光交换部分工作而已,并没有什么高艰深工艺技术的挑战。32个8192以太phy超节点组成的两网合一26万卡GPU集群,每个超节点内部的8192卡GPU(M*P/2=32*512/2=8192)之间全带宽400GB互联(图3和图5只有300GB),更充分地利用了GPU的I/O带宽资源做超节点内的全带宽任意节点互联,任意GPU到超节点内的其他GPU都只有两跳,scale-out部分平均按照1:8带宽收敛(这个收敛比还可以实时动态大幅度地调节)。虽然从网络角度看这个scale-out网络是三层网络,但是中间层(不是scale-up的Spine层)是OCS光交换(32*32)矩阵,光交换的天然优势使整个网络的成本、延迟和功耗都接近两层电交换网络,而且电协议透明,升级友好;自带故障躲避路径倒换能力,提升网络可靠性;全可插拔光器件降低工艺和使用维护的难度和成本等一系列好处。

        值得注意的是,贴近GPU的全带宽互联scale-up网络无带宽收敛,要求适应突发流量,大带宽,低延迟,必须采用纳秒级开关速度的电调OBS光开关,而且$/G成本敏感,可靠性要求高,应对高速光开关光插损大的问题最优解应该是采用高链路预算的800G 8ER光模块。有带宽收敛的scale-out网络部分则不同,对延迟和成本没有scale-up网络那么敏感,各种低插损的微秒甚至毫秒级较慢开关速度的中小规模OCS光开关都可以引入,为了使用方便,最普通的800G DR8光模块可能是首选,这样就要求光开关矩阵总的光插损足够小,甚至引入成本较高的SOA彻底抵消前面各级光开关的总插损。

        随着更大通道数的光交换矩阵和电交换芯片的采用,还可能进一步实现更大的超节点和集群规模,并不会造成延迟和成本的飙升。换句话说,目前大模型迫切需求的千卡万卡超节点网络并不需要太大的光交换矩阵,中小规模(32x32左右)即可。这为大规模AI集群网络的实现引入了新的维度,显示出了很好的技术可行性、经济性和最佳切入点,同时供应链生态和未来升级友好,上限很高,甚至可能通过两层光电交换网络高达512x512的光交换矩阵和电交换芯片实现512*512/2=131072,超十万卡的GPU超节点,全带宽互联,延迟和成本可控。这种小芯片大网络方案可能避免目前在单柜内聚集更多更大的GPU/交换芯片的单一技术路径,避免挑战CMOS制程、供电、散热等工业极限,各种低pJ/bit(或$/G)的成熟技术也不会仅仅因为体积大而被一票否决。

光纤在线

光纤在线公众号

更多猛料!欢迎扫描左方二维码关注光纤在线官方微信

相关产品

微信扫描二维码
使用“扫一扫”即可将网页分享至朋友圈。