CFCF2021 百度郭蕾：数据中心光互联演进探讨

浏览量：2697

导读：6月23~25日，在CFCF2021光连接大会上，百度系统部光网络架构师郭蕾发表了《数据中心光互联演进探讨》的主题报告，该报告从四个维度分享和探讨了数据中心光互联演进的状况，即数据中心互联带宽趋势，光互联技术变化带动的数据中心网络建设的变化，数据中心运维模式以及组网规模。

7/19/2021，光纤在线讯，6月23~25日，在CFCF2021光连接大会上，百度系统部光网络架构师郭蕾发表了《数据中心光互联演进探讨》的主题报告，该报告从四个维度分享和探讨了数据中心光互联演进的状况，即数据中心互联带宽趋势，光互联技术变化带动的数据中心网络建设的变化，数据中心运维模式以及组网规模。

郭总介绍到，百度在基于AI云计算有自己的相关技术。从服务器的规模来看，最早期是百兆、千兆的吞吐量，现在部署的是25G到100G服务器情况，再往后规划的是100G到400G服务器的互联带宽。

一、数据中心互联带宽变化趋势
首先，整个数据中心服务器的带宽，通信技术的发展跟社会的发展是息息相关的，从早期的信息经济到互联网经济、数字经济，再到现在的智能经济，背后的驱动在于PC，移动互联，以及基于云的技术的不断推进。正是有了这些技术革新的基础，智能家居、AR/VR、游戏、自动驾驶、智慧园区、安防等新的应用得以实现，并给我们的数据中心流量带来了无敌的变化：带宽急剧爆发式增长，对时延的要求非常高，所以无论是整个数据中心的部署还边缘部署以及Core的部署，目标一致：都要求低成本、高带宽、低时延，同时高可靠性、自动化的运维模式。

以百度典型的计算资源为例，纵观近几年CPU、网卡性能的趋势，CPU性能在未来三年内我们评估可能有2.5倍的增长，对应的网卡峰值流量会有大约3.1倍的增长，这两者肯定虽不是完全成正比，但也呈一定的线性关系。

二、光互联技术变化的趋势
郭总重点介绍了最近十年来数据中心交换芯片和光模块的部署情况：2010~2013年，主要以10G NRZ技术为主；2013~2018年，以25G NRZ技术为主的100G光模块为主，对应的交找机芯片是3.2T和6.4T；2018年，出现了12.8T的基于50G PAM4的芯片，基于56G PAM4技术的可能存在三种形态：QSFP 56 200G，QSFP-DD 400G以及QSFP 2*200G的网络架构；从2020年至今，25.6T交换机芯片的发布，基于56G和112G两种；预计2022年或2023年将会有基于112G的51.2T Serdes面世；再之后可能就是102.4T。

回顾过去光互联技术的发展，可以看到交换机芯片的带宽基本上是每两年翻一倍，Serdes的速率是每四年翻一倍，如此推算，102.4T大概率会是基于224G的，基于224G Serdes到底是部署CPO还是可插拔的光模块? 从目前的情况来看， 1.6T的可插拔光模块仍在陆陆续续地研发。

目前百度的网络架构主流的部署还是2*25G为主，下一代规划是4.0的网络架构，将会是基于400G的交换机的形态，采用的是56G PAM4；与此同时百度规划了DCN 5.0的网络架构，主要是考虑应用基于112G PAM4的技术，但最终选择400G还是800G，具体需要根据业务流量，集群规模做相应应的调查，也可能两种形态都会规划。再往后是1.6T CPO PAM4，郭总认为51.2T的CPO会有小规模部署，但大规模部署可能不切实际，因为CPO最大的问题就是如何运维？

三、数据中心光互联部署的趋势
郭总介绍，在去年百度开始部署了25G DAC，无论是从成本、资本支出、可靠性来看都是不错的。下一步延伸将会基于50G PAM4，但在跨柜的连接更期待 ACC技术，因为服务器与交换机的互联会是海量的部署需求，期待看到更低成本的解决方案。从ACC的供应来看，品质与交付都能很好地完成，但相应的芯片玩家却只有一家，期待更多的厂商关注。

郭总认为再下一步，将会部署400G DR4及FR4，在DR4方案更看好硅光，并期待硅光800G CPO。从当前400G，800G相关的模块MSA来看，更多的是基于电信号112G以上的，对于400G郭总认为4通道从成本、失效率等角度来讲依然更低，所以更期待基于Q112的相关产品。

下一代到底是可插拔还是CPO？从郭总的角度，百度在去年于对400G做过评估，发现400G的成本远高于100G单G的成本；而且400G的功耗增大，200G可插拔更受欢迎，但200G+速率是否适合可插拔的方式，有待业界进一步探讨。但同样的 CPO的优势完全可以解决这些痛点吗？CPO的优势如低功耗、高密度、低成本、信号完整性等等，但同样面临自己的问题，如说封装、运维、热管理、I/O怎么做，生态是否成熟？

流量激增，网络的变化也在影响成本的变化，早期部署40G模块时，模块成本占比约30%；而到了400G时，成本激增到70%。同时功耗也是在整机的占比也随着速率的提升在增加。

再看一下DCN网络设备的变化趋势，以前是商用设备为主，功能更完善，系统更复杂一些。下一步会把控制面和管理面分离，控制面可以具备全局的视野对整个网络进行管控，弱化交换机的功能加速白盒设备，也可以跟上互联网对于网络架构迭代的时间点。

四、数据中心光互联组网规模、运维模式的变化趋势
对于下一代DCN光互联组网规模变化，郭总表示：以前主要以典型close架构为主，未来则是多平面，以解决跨集群带宽的问题，也可以做到横向延伸。未来从leaf、spine到DC层级会采用25.6T或者是51.2T单芯片的设备；在TOR这一层采用的是8.0T或者是12.8T单芯片的设备；对于TOR和服务器互联来说，我们有存储端和AI端，所以希望网络架构相对比较灵活，可以有50G、100G、200G、400G的接入，分端口去部署。在交换机往上会考虑400G的 SR4、DR4。

对于下一代DCN网络运维。郭总表示百度100G也部署了好几年，对于早期来说能监控的参数只有DDM的参数，温度、电压电流，好一点的光模块寄存器警告，但这远远不够。从400G开始，我们会加大DCN光网络运维的情况。我们从两方面着手：一是从模块的角度，除了无线DDM的监测之外，也会定制SNR、BR的监控等等。与此同时我们会跟交换机的link特性结合起来，抖动的特性、或者CDR、丢包、时延的数据。两部分数据结合，建立生命周期管理模型，期望达到到端到端自动优化的功能，同时可以做到主动的触发。我们便有了提前预知、预判，提前对光模块进行更换。

关键字：百度数据中心 DCN网络

编辑：Smile