9/19/2023,光纤在线讯,2023年9月7日,厚积薄发的混元大模型在腾讯全球数字生态大会正式亮相,并通过腾讯云对外开放。混元大模型作为核心引擎,已经支持了公司内部包括腾讯会议、腾讯文档、腾讯广告等50多个应用,腾讯也在“AI年”进入了“全面拥抱大模型”时代。如果说AI赋予了行业新的机遇,那么AI的算力底座则赋予AI本身新的极限,对此腾讯TEG网络平台部也在同期举行的第24届CIOE国际光电博览会上,正式发布并展览了新一代自研网络产品,包含51.2T交换机、400G互联光模块、以及第二代开放光设备,引来行业伙伴高度关注。
图1 CIOE腾讯云展台人流涌动
自研数据中心高性能网络——新一代 AI 网络基座
腾讯开放网络系统(Tencent Open Networking System)是腾讯网络平台部定义和推动开发的,致力于打造高可控、高质量、低成本的交换机产品平台,随着GPT4的问世,AI大模型训练需要在上万张GPU之间进行海量数据交换,也对网络设备提出了更高的要求。对此在本次展会中,TONS发布了适配AI新时代的两款最新产品:128端口400G交换机和400G BR4光模块,赋予新一代腾讯AI大模型网络更大的接入带宽、更大的规模组网以及更低的转发延时,为AI算力铸造高速、平稳的极致赛道。
1、51.2T交换机
腾讯全新一代自研交换机TCS9500,交换容量 51.2T,支持128端口400G(QSFP112),两极组网即可实现 8K GPU 集群全互联。在结构设计方面,结合框式产品可插拔易维护的特点,在采用固定业务口方案的同时,将控制系统做成一张独立的插卡,位于设备前面板,故障时可以很方便的进行更换,提高了产品维护效率,降低现网故障对 AI 模型训练时间的影响。在散热设计方面,产品支持风冷、冷板式液冷两种散热模式,可根据GPU服务器散热需求,选择对应产品配置,最大限度降低PUE。在SI设计方面,严格约束损耗、串扰、阻抗的关键指标,充分结合仿真与测试结果,系统级优化高速链路,最终实现整机无PHY芯片的同时,全部端口可以支持线性直驱光模块的应用。
图2 TCS9500交换机现场展示
2、400G BR4 LPO光模块
针对AI大模型网络需求,结合腾讯数据中心场景特点,我们推出400 BR4光模块。400G BR4光模块采用QSFP112封装形式,四通道并行收发信号,单通道速率达112Gbps,传输距离200m,整体功耗小于8W。
图3 400G BR4光模块
400G BR4光模块旨在实现Building Reach,覆盖腾讯数据中心楼栋内全部光互联场景。其关键设计如下:
1.平衡收发设计、降低Link Budget。针对DR规格光模块发射端性能要求高,而接收端性能余量较大这一现状,400G BR4对两者进行了平衡设计,降低发射端OMA-TDECQ要求,使得发射端设计更加简单、产品良率更高。
2.优化调制器设计,硅光芯片面积降低40%。在优化调制器设计的同时,降低BR4规格的ER要求,在调制器损耗基本保持不增加的情况下,调制器长度下降30%,同时实现“一拖四”设计,硅光芯片整体面积下降40%。
3.模块内部“标准化”,功能块设计。多芯片方案并行开发可以有效降低供应风险,但是会导致开发成本大幅提升,模块内部“标准化”是可能的解决办法。通过将模块内部主要功能进行分块,功能块之间的接口标准化,可以降低多芯片方案的开发成本,加快开发速度。
4.线性直驱,节能降本。线性直驱光模块(Liner-drive pluggable Optics,LPO)通过去除常规解决方案中的oDSP芯片,模块功耗下降~50%,时延降低40~50ns,成本显著降低,同时,还保留了传统光模块热可插拔的特性,运维方便。LPO 模块在数据中心短距离互联场景有很好的应用前景。但是,无DSP设计降低了光模块抗损伤的能力,为了保证误码率优于规范门限,需要从全链路的角度去系统优化设计,交换机和光模块联合调优配置参数,更好地发挥各自能力,提升链路的传输性能。
与TCS9500对接测试结果显示,使用光纤自环,遍历全部端口的 BER 数据如下图,Pre FEC BER 均小于1e-08。
图4 400G BR4 BER测试
线性直驱的另一种解决方案是CPO,Co-Packaged Optics。CPO方案将光学器件与交换机芯片封装在一起,大幅度降低高速信号的损耗,整机功耗相对上一代交换机降低了~23%;整机高度由4U降低为2U,为机架预留了更多的空间;接口为高密度800G,可插拔接口由56G SerDes 200G接口升级为112G SerDes 400G,高密的高速端口节省上架时间~60%。
通过端到端的细致优化,其各项性能均超出规范标准。
图5 CPO交换机性能测试
同时,对CPO光引擎性能进行了性能测试,TDECQ均值约为2.2dB,ER优于4dB,性能满足DR4 MSA要求。全端口长时间串联测试结果零误码。
自研开放光网络——连通数据中心的高速公路
腾讯开放光网络平台(Tencent Open Optical Platform)是网络平台部定义和推动开发的,致力于打造适配数据中心互联场景的低成本、大带宽、高可靠的传送网络系统。开放光网络平台于2018年启动,秉承着用互联网思维打造开放的光网络产品的目标,产品分阶段实现了光电解耦、相干模块解耦的目标,并在2020光博会发布了开放光网络第一代自研产品OPC-4。腾讯传送网络团队一直致力于提升开放光网络平台的能力,基于新的传送网络技术对产品进行打磨和突破。三年磨一剑,在2023光博会上,开放光网络平台的第二代自研产品OPC-8揭开了神秘的面纱。
图6 开放光系统现场展示
(左侧为第一代平台OPC-4,右侧为新平台OPC-8)
OPC-8作为开放光网络的新一代平台系统,继承了TOOP至简高效的设计理念,平台依然采用光电混合设计,应用于电层平台可接入8块1.2T单载波速率单板实现9.6T带宽接入,客户侧可灵活支持100/200/400GE业务接入。光层平台升级支持C+L,在2U单子框内可支持一个OTM站全部光学功能部署,结合1.2T单板可实现单纤76.8T传送能力。平台支持SNCP、OCHP、OMSP多种保护模式,满足数据中心应用场景的各种组网需求。
图7 1.2T单载波速率单板T1X12C8
开放光网络系统新一代平台OPC-8,传承了为波分产品做减法的理念,采用优质组件、高性能器件和严谨的加工工艺实现了在系统成本优化的同时保证了苛刻的质量要求。TOOP系列产品全面通过CE、GR63等质量认证,从而打造了安全可靠,简单易用的物理层产品,持续的将“less is more”的理念付诸于行动。
总结
“智变加速、产业焕新”,AI对产业的影响是现象级的,而腾讯在基础技术底座上的探索、实践与创新更是持续不断的。作为地基,腾讯自研硬件赋予了当下技术新的应用与发展。未来,相信会有更强劲、更多元化的腾讯自研硬件会在CIOE这个国际舞台上大放异彩。
(来源:鹅厂网事)