百度万昳:从DCN到HPN 光互联的演进与革新

光纤在线编辑部  2024-07-10 12:25:48  文章来源:本站消息  版权所有,未经许可严禁转载.

导读:百度网络系统部的光网络架构师万昳解析AI时代下新型智算集群网络架构与传统数据中心网络(DCN)之间的差异与光互联的机遇。

7/10/2024,光纤在线讯,随着大模型等AI人工智能技术的进一步广泛应用,正推通光通信产业从通用计算全面迈向智算时代,而这一背景下的光互联正发生着巨大的变化。

在最近举行的CFCF2024光连接大会上,百度网络系统部的光网络架构师万昳强调了AI时代下新型智算集群网络架构与传统数据中心网络(DCN)之间的显著差异。这些差异不仅为光通信行业带来了一系列新的挑战,同时也带来了前所未有的机遇。具体来说,包括光互联方案的多样化发展、硅光技术的广阔应用前景,以及低功耗光模块技术TRO和LPO的新机遇。


百度网络系统部光网络架构师,万昳


随着人工智能技术的飞速发展,特别为AI设计的高性能智算网络集群(HPN)在网络架构和光互联需求上与传统的数据中心网络(DCN)呈现出根本性的差异。这种差异化需求正推动着光互联解决方案的创新与进步。

AI技术对网络架构提出了更高的要求,包括但不限于以下几点:
1. 强扩展性:AI网络架构需要具备强大的扩展能力,采用二层或三层网络结构,以支持AI集群的灵活扩展。
2. 大规模分布式计算:面对千亿甚至万亿参数的AI模型,需要多机多卡的分布式计算能力,以支持大规模算力集群。
3. 超高带宽需求:随着数据传输需求的增加,当前网络到服务器的连接已经越来越多地采用400G速率,而未来,无论是顶端的TOR(Top of Rack)到服务器连接,还是数据中心内部的连接,都将迈向800G速率。
4. 多导轨设计:通过采用多导轨设计,可以减少GPU之间的互访路径跳数,降低拥塞和冗余,从而提高GPU的利用率。
5. 稳定性:AI训练往往涉及大规模的任务启动,对网络稳定性的要求极高,以避免因网络问题导致训练回退,造成不必要的延时。
6. 可运维性:与对时效性和检测性有一定容忍度的传统数据中心不同,AI训练中心期望能够快速进行异常检测和处理,以保证训练过程的连续性和效率。
    这些需求的提出,不仅为光通信行业带来了挑战,也为技术创新和解决方案的优化提供了广阔的空间。

传统数据中心是以服务器为中心作机房物理排布,但AI数据中心会以网络为中心,在每一层级互联之间距离达到等长,避免最小的时延和距离,所以在工程布程都发生了改变。数据中心也发生了变化,Copper最大的特点是成本低,在传统数据中心TOR-Server通常采用Copper的比例很高,包括10G/ 25G /100G/ 200G性能都不错。但在AI数据中心,电力不够,服务器、网络设备要做一定的拉远,铜线的性能不够,光互联会更多,但仍然在努力在稳定性和距离上进行优化。但在面向未来高密度的需求,柜内的芯片互联,也将会考虑采用Copper进入互联。

对于硅光技术的引入,万昳认为:全球范围内AI建设,光模块的海量需求,而当下多模方案面临光芯片供应问题,给硅光技术带来机会;面向长距离EML方案的供应、功耗、成本也均面临着挑战,硅光技术依然具备一定的机会;而在面向各种光模块的技术平台持续发展的方案中,硅光技术也可支持DSP、LPO,TRO,CPO等,以及走向Optical IO芯片互联。具体的节点上,用于400G及800G应用的 112G Serdes 硅光技术将会成为重点方案。

针对LRO/TRO的方案,可能为HPN的重要方案,具体的技术引入,业界正基于400G 开始进行LPO/TRO光模块技术评估,根据评估数据及性能表现预计将在800G/1.6T时代展开更多的应用。总体来看,无论哪种方案,随着Serdes速率提升,高速信号完整性受到挑战;系统功耗不断增加,进而面临散热的瓶颈。但在长期演进路线来看,技术条件可满足的情况下,可插拔依然是综合更优选的方案。
关键字: 百度 AI 数据中心
光纤在线

光纤在线公众号

更多猛料!欢迎扫描左方二维码关注光纤在线官方微信
微信扫描二维码
使用“扫一扫”即可将网页分享至朋友圈。