阿里巴巴谢崇进：智能计算的光互联需求与挑战

发布时间：2024-07-15 16:17:21 热度：1261

7/15/2024，光纤在线讯，AI算力正成为光互联领域新的增长引擎。在传统的通用计算时代，算力大约每两年翻一番；然而，在AI计算时代，这一速度被大大加快，算力每3到4个月就能翻一番，相当于每年增长200倍。因此，今年光互联市场展现出强劲的增长势头。

近日于苏州举办的CFCF2024光连接大会上，阿里巴巴首席通信科学家谢崇进详解了迈向智算时代，网络架构以及光互联的需求变化与挑战。

回顾过去十年阿里数据中心网络的演进，阿里云几乎每两年就会有一次技术更新。从架构上看，从3.x版本到7.x版本，十年间经历了五代的变革；从1Gbps提升到今天的100Gbps，服务器的处理速度增长了100倍；从10Gbps发展到今天的200Gbps/400Gbps，光互联的速度增长了40倍；而对分带宽则在十年间提升了1000倍，主要是由于网络架构的变革，从传统网络到Clos网络的转变。而在智算时代，随着AI技术带来的网络架构变革，网络带宽的增长潜力仍然巨大，有望持续实现千倍的增长。

阿里为AI大规模计算推出的智算网络HPN 7.0，为了AI的GPU增加后端加速计算网络，架构发生了很大的变化。阿里于2023年7月开始大规模部署基于阿里自研的SONiC操作系统，PHY-Less VSR设计的51.2T交换机，采用可插拔400G QSFP112光模块，并依然采用单模和多模的混合技术，光模块类型以400G VR4 和400G DR4为主，少量采用400G FR4。

谢崇进分享说，AI本质上是大规模并行计算的体现，它涉及多种并行机制，包括矢量并行化，将复杂的运算分解为更小的单元，同时这些单元之间需要进行更频繁的交互，这无疑对网络带宽提出了更高的要求。

在服务器和网络的功耗方面，我们也见证了显著的变化。服务器方面，数据中心正从以X86架构为主的通用计算服务器，转向以GPU为主导的高性能计算服务器。在网络层面，数据中心的网络架构也从传统的以太网转向基于RoCE的以太网或基于InfiniBand（IB）的高性能网络。

AI计算的基础设施与传统通用计算的基础设施在多个方面存在显著差异，包括服务器配置、处理器性能、网络架构以及功耗管理等。我们追求在AI计算中实现高吞吐量、低延迟和高可靠性，期望建立一个无损的网络环境。这一点凸显了光互连技术的重要性以及在技术创新方面的迫切需求。

庞大的AI集群首先需要更多的光互联，光互联链路主要包括主机ASIC和可插拔光模块之间的电信道，以及光模块之间的光链路；其次需要更大的带宽和更高速的SerDes，预计明年200G/lane将真正走向市场；同时需要兼容更低时延、更低功耗、更高可靠性，包括链路质量/故障和丢包直接影响计算的效率和性能。尤其是低时延与低功耗，有赖于业界使用全新的光电调制器和激光器，同时进一步完善CPO/ LPO/ TRO等光电调制技术。

对于CPO，谢崇进认为CPO最大的挑战在于改变了现有供应生态，抛弃了现有成熟的可插拔模块生态，而面向下一代可插拔技相仍然可行。对于LPO最大的挑战在于需要全新的大量的互联互通，包括交换机、LPO光模块之间的认证测试工作。对于TRO/LRO，具备更大的潜力，最大的优势在于测试变的简单、互联互通更容易，其功耗和时延等均介于Fully Retimed和LPO之间。

展望未来，AI时代更多的互联需求，还将延伸至GPU-GPU之间scale-up 网络的互联，CPU-GPU-DPU之间的 PCIe/CXL网络互联。而更多的芯片与芯片之间光互联则具备更大的潜力，因此更多的创新技术，包括NPO、CPO、IPO技术，以及光交换OCS技术的发展迅速。