7/19/2021,光纤在线讯,6月23~25日,在CFCF2021光连接大会上,百度系统部光网络架构师郭蕾发表了《数据中心光互联演进探讨》的主题报告,该报告从四个维度分享和探讨了数据中心光互联演进的状况,即数据中心互联带宽趋势,光互联技术变化带动的数据中心网络建设的变化,数据中心运维模式以及组网规模。
郭总介绍到,百度在基于AI云计算有自己的相关技术。从服务器的规模来看,最早期是百兆、千兆的吞吐量,现在部署的是25G到100G服务器情况,再往后规划的是100G到400G服务器的互联带宽。
一、数据中心互联带宽变化趋势
首先,整个数据中心服务器的带宽,通信技术的发展跟社会的发展是息息相关的,从早期的信息经济到互联网经济、数字经济,再到现在的智能经济,背后的驱动在于PC,移动互联,以及基于云的技术的不断推进。正是有了这些技术革新的基础,智能家居、AR/VR、游戏、自动驾驶、智慧园区、安防等新的应用得以实现,并给我们的数据中心流量带来了无敌的变化:带宽急剧爆发式增长,对时延的要求非常高,所以无论是整个数据中心的部署还边缘部署以及Core的部署,目标一致:都要求低成本、高带宽、低时延,同时高可靠性、自动化的运维模式。
以百度典型的计算资源为例,纵观近几年CPU、网卡性能的趋势,CPU性能在未来三年内我们评估可能有2.5倍的增长,对应的网卡峰值流量会有大约3.1倍的增长,这两者肯定虽不是完全成正比,但也呈一定的线性关系。
二、光互联技术变化的趋势
郭总重点介绍了最近十年来数据中心交换芯片和光模块的部署情况:2010~2013年,主要以10G NRZ技术为主;2013~2018年,以25G NRZ技术为主的100G光模块为主,对应的交找机芯片是3.2T和6.4T;2018年,出现了12.8T的基于50G PAM4的芯片,基于56G PAM4技术的可能存在三种形态:QSFP 56 200G,QSFP-DD 400G以及QSFP 2*200G的网络架构;从2020年至今,25.6T交换机芯片的发布,基于56G和112G两种;预计2022年或2023年将会有基于112G的51.2T Serdes面世;再之后可能就是102.4T。
回顾过去光互联技术的发展,可以看到交换机芯片的带宽基本上是每两年翻一倍,Serdes的速率是每四年翻一倍,如此推算,102.4T大概率会是基于224G的,基于224G Serdes到底是部署CPO还是可插拔的光模块? 从目前的情况来看, 1.6T的可插拔光模块仍在陆陆续续地研发。
目前百度的网络架构主流的部署还是2*25G为主,下一代规划是4.0的网络架构,将会是基于400G的交换机的形态,采用的是56G PAM4;与此同时百度规划了DCN 5.0的网络架构,主要是考虑应用基于112G PAM4的技术,但最终选择400G还是800G,具体需要根据业务流量,集群规模做相应应的调查,也可能两种形态都会规划。再往后是1.6T CPO PAM4,郭总认为51.2T的CPO会有小规模部署,但大规模部署可能不切实际,因为CPO最大的问题就是如何运维?
三、数据中心光互联部署的趋势
郭总介绍,在去年百度开始部署了25G DAC,无论是从成本、资本支出、可靠性来看都是不错的。下一步延伸将会基于50G PAM4,但在跨柜的连接更期待 ACC技术,因为服务器与交换机的互联会是海量的部署需求,期待看到更低成本的解决方案。从ACC的供应来看,品质与交付都能很好地完成,但相应的芯片玩家却只有一家,期待更多的厂商关注。
郭总认为再下一步,将会部署400G DR4及FR4,在DR4方案更看好硅光,并期待硅光800G CPO。从当前400G,800G相关的模块MSA来看,更多的是基于电信号112G以上的,对于400G郭总认为4通道从成本、失效率等角度来讲依然更低,所以更期待基于Q112的相关产品。
下一代到底是可插拔还是CPO?从郭总的角度,百度在去年于对400G做过评估,发现400G的成本远高于100G单G的成本;而且400G的功耗增大,200G可插拔更受欢迎,但200G+速率是否适合可插拔的方式,有待业界进一步探讨。但同样的 CPO的优势完全可以解决这些痛点吗?CPO的优势如低功耗、高密度、低成本、信号完整性等等,但同样面临自己的问题,如说封装、运维、热管理、I/O怎么做,生态是否成熟?
流量激增,网络的变化也在影响成本的变化,早期部署40G模块时,模块成本占比约30%;而到了400G时,成本激增到70%。同时功耗也是在整机的占比也随着速率的提升在增加。
再看一下DCN网络设备的变化趋势,以前是商用设备为主,功能更完善,系统更复杂一些。下一步会把控制面和管理面分离,控制面可以具备全局的视野对整个网络进行管控,弱化交换机的功能加速白盒设备,也可以跟上互联网对于网络架构迭代的时间点。
四、数据中心光互联组网规模、运维模式的变化趋势
对于下一代DCN光互联组网规模变化,郭总表示:以前主要以典型close架构为主,未来则是多平面,以解决跨集群带宽的问题,也可以做到横向延伸。未来从leaf、spine到DC层级会采用25.6T或者是51.2T单芯片的设备;在TOR这一层采用的是8.0T或者是12.8T单芯片的设备;对于TOR和服务器互联来说,我们有存储端和AI端,所以希望网络架构相对比较灵活,可以有50G、100G、200G、400G的接入,分端口去部署。在交换机往上会考虑400G的 SR4、DR4。
对于下一代DCN网络运维。郭总表示百度100G也部署了好几年,对于早期来说能监控的参数只有DDM的参数,温度、电压电流,好一点的光模块寄存器警告,但这远远不够。从400G开始,我们会加大DCN光网络运维的情况。我们从两方面着手:一是从模块的角度,除了无线DDM的监测之外,也会定制SNR、BR的监控等等。与此同时我们会跟交换机的link特性结合起来,抖动的特性、或者CDR、丢包、时延的数据。两部分数据结合,建立生命周期管理模型,期望达到到端到端自动优化的功能,同时可以做到主动的触发。我们便有了提前预知、预判,提前对光模块进行更换。