百度万昳：从DCN到HPN 光互联的演进与革新

浏览量：

导读：百度网络系统部的光网络架构师万昳解析AI时代下新型智算集群网络架构与传统数据中心网络（DCN）之间的差异与光互联的机遇。

7/10/2024，光纤在线讯，随着大模型等AI人工智能技术的进一步广泛应用，正推通光通信产业从通用计算全面迈向智算时代，而这一背景下的光互联正发生着巨大的变化。

在最近举行的CFCF2024光连接大会上，百度网络系统部的光网络架构师万昳强调了AI时代下新型智算集群网络架构与传统数据中心网络（DCN）之间的显著差异。这些差异不仅为光通信行业带来了一系列新的挑战，同时也带来了前所未有的机遇。具体来说，包括光互联方案的多样化发展、硅光技术的广阔应用前景，以及低功耗光模块技术TRO和LPO的新机遇。

百度网络系统部光网络架构师，万昳

随着人工智能技术的飞速发展，特别为AI设计的高性能智算网络集群（HPN）在网络架构和光互联需求上与传统的数据中心网络（DCN）呈现出根本性的差异。这种差异化需求正推动着光互联解决方案的创新与进步。

AI技术对网络架构提出了更高的要求，包括但不限于以下几点：
1. 强扩展性：AI网络架构需要具备强大的扩展能力，采用二层或三层网络结构，以支持AI集群的灵活扩展。
2. 大规模分布式计算：面对千亿甚至万亿参数的AI模型，需要多机多卡的分布式计算能力，以支持大规模算力集群。
3. 超高带宽需求：随着数据传输需求的增加，当前网络到服务器的连接已经越来越多地采用400G速率，而未来，无论是顶端的TOR（Top of Rack）到服务器连接，还是数据中心内部的连接，都将迈向800G速率。
4. 多导轨设计：通过采用多导轨设计，可以减少GPU之间的互访路径跳数，降低拥塞和冗余，从而提高GPU的利用率。
5. 稳定性：AI训练往往涉及大规模的任务启动，对网络稳定性的要求极高，以避免因网络问题导致训练回退，造成不必要的延时。
6. 可运维性：与对时效性和检测性有一定容忍度的传统数据中心不同，AI训练中心期望能够快速进行异常检测和处理，以保证训练过程的连续性和效率。
这些需求的提出，不仅为光通信行业带来了挑战，也为技术创新和解决方案的优化提供了广阔的空间。

传统数据中心是以服务器为中心作机房物理排布，但AI数据中心会以网络为中心，在每一层级互联之间距离达到等长，避免最小的时延和距离，所以在工程布程都发生了改变。数据中心也发生了变化，Copper最大的特点是成本低，在传统数据中心TOR-Server通常采用Copper的比例很高，包括10G/ 25G /100G/ 200G性能都不错。但在AI数据中心，电力不够，服务器、网络设备要做一定的拉远，铜线的性能不够，光互联会更多，但仍然在努力在稳定性和距离上进行优化。但在面向未来高密度的需求，柜内的芯片互联，也将会考虑采用Copper进入互联。

对于硅光技术的引入，万昳认为：全球范围内AI建设，光模块的海量需求，而当下多模方案面临光芯片供应问题，给硅光技术带来机会；面向长距离EML方案的供应、功耗、成本也均面临着挑战，硅光技术依然具备一定的机会；而在面向各种光模块的技术平台持续发展的方案中，硅光技术也可支持DSP、LPO，TRO，CPO等，以及走向Optical IO芯片互联。具体的节点上，用于400G及800G应用的 112G Serdes 硅光技术将会成为重点方案。

针对LRO/TRO的方案，可能为HPN的重要方案，具体的技术引入，业界正基于400G 开始进行LPO/TRO光模块技术评估，根据评估数据及性能表现预计将在800G/1.6T时代展开更多的应用。总体来看，无论哪种方案，随着Serdes速率提升，高速信号完整性受到挑战；系统功耗不断增加，进而面临散热的瓶颈。但在长期演进路线来看，技术条件可满足的情况下，可插拔依然是综合更优选的方案。

关键字：百度 AI 数据中心

编辑：Ria

合作转载

光纤在线公众号

更多猛料！欢迎扫描左方二维码关注光纤在线官方微信

百度万昳：从DCN到HPN 光互联的演进与革新

更多关于百度 AI 数据中心的新闻

相关产品

热门搜索

热门新闻

最新简历

展会速递

百度万昳：从DCN到HPN 光互联的演进与革新

更多关于 百度 AI 数据中心 的新闻

相关产品

热门搜索

热门新闻

最新简历

展会速递

更多关于百度 AI 数据中心的新闻