数据中心光互联不止要降成本 阿里和百度这样说
发布时间:2018-06-15 12:40:34 热度:2983
6/14/2018,光纤在线讯,今年的Optinet增加了数据中心专题环节,在这个专题中,以阿里巴巴和百度为代表的中国互联网运营商主力军阐述了当前数据中心光互联架构的演讲和部署思路,重点阐述对于高速光模块的具体需求和挑战。
阿里巴巴光网络架构高级专家陆睿在演讲中表示,阿里巴的数据中心建设量每年都在翻倍增长,因此在对网络性能追求的同时,带来了服务器,网卡、交换机、光连接等光互联设备和模块器件的增长,增长的背后更是对于每Gbit成本的追求。因此在过去从10G-40G-100G三代产品基本保持着3年一个产品迭代的速度,阿里也计划将在2020年规模部署400G。总体来讲,数据中心的网络架构要求越来越粗的管道,越来越低的单位连接成本。
陆睿表示,根据阿里过去几年数据中心光网络部署的经验,数据中心光模块还存在以下三方面的问题,有待厂家提升。
1、兼容性。随着光模块向更高的速率演进,光模块的设计越来越复杂,增加了均恒,CDR,Gearbox,以及400G还要加入DSP等功能,光模块的寄存器也越来越复杂,带来了和交换机之间的性能兼容问题越来越多。而数据中心的业务对于IDFA、丢包的要求也越来越高,实际在交换机使用和工厂测试的性能也有不同,包括在工厂无法测试FACE纠错。
2、建设和运维。过去在这方面比较粗放,导致运维的大量工作,包括端面脏污,光纤连接等问题,因此未来会考虑在运维方面配备专门的检测工具。第二,由于光模块的种类繁多,给现场建设人员也带来了识别的困难,同时在出现问题时可以迅速响应解决。第三,考虑在线升级,一旦光模块设计出现Bug,不像交换机可以在线升级操作,必须把光模块拆下来返厂,带来了人力成本和网络稳定的问题,未来期待模块厂商可以考虑在线升级,或者开放性可编程。
3、失效率,过去我们所理解,由于数据中心的机房环境较好,产品迭代快,对光模块的性能、寿命要求没有那么高,但在失效率的要求上并没有放松,因为数据中心光模块的用量非常大,失效率的故障会导致运维部门大量的修复端口故障以及带来备件库存成本等问题。
百度的系统部陈刚则侧重对数据中心运维方面,陈刚表示2008年到2014年Google的数据中心流量增长了50倍,而百度数据中心流量在过去的几年来一直呈现50%以上的增长速度。百度的数据中心分为2017年前可以支撑2万台以内数量服务器的Four-Post结构和2017年之后可支撑超过2万台的Clos Fabric三层架构,目前百度的数据中心TOR以10G互联为主,向上互联以40G为主。对于数据中心光网络来说,运维监控是一个很大的难题,不同的覆盖范围均有不同的技术选型,光纤连接选型和模块类型,在数据中心内部有种各样的运维系统,很难能够一次全程监控。
百度的数据中心采见的三种运维场景包括:硬件故障,采集所有设备的日志进行监控分析,网关系统进行故障报警已经可以很好地解决;二是链路故障:通过一些脚本用Ping工具即可实现监测;但第三种,误码和丢包的故障最为困难:一个数据中心的链路非常巨大,单一的TOR就有上万条链路,所以采用软件的方案监测每条链路的情况。整合基于SDN/IBN思想的智能管控编中心。为了实现更智能的网络运维管理,百度期望未来可以营造可编程的环境,使得运维人员能够自定义管理控制面功能和接口,同时IP与光层控制和调度。
陈刚同时分享了百度数据中心光互联技术的规划,2017年百度的数据中心中,交换机到交换机基于QSFP28 100G SR4,CWDM4的模块连接,服务器到交换机采用25G AOC SFP28连接;预计到2021年百度将规模部署QSFP-DD 400G DR4,FR4,SR4.2,服务器与交换机的连接将采用100G AOC SFP56-DD。
阿里与百度的演讲,同时向我们传递出对于数据中心光互联智能监测与运维方面的巨大需求和挑战。
阿里巴巴光网络架构高级专家陆睿在演讲中表示,阿里巴的数据中心建设量每年都在翻倍增长,因此在对网络性能追求的同时,带来了服务器,网卡、交换机、光连接等光互联设备和模块器件的增长,增长的背后更是对于每Gbit成本的追求。因此在过去从10G-40G-100G三代产品基本保持着3年一个产品迭代的速度,阿里也计划将在2020年规模部署400G。总体来讲,数据中心的网络架构要求越来越粗的管道,越来越低的单位连接成本。
陆睿表示,根据阿里过去几年数据中心光网络部署的经验,数据中心光模块还存在以下三方面的问题,有待厂家提升。
1、兼容性。随着光模块向更高的速率演进,光模块的设计越来越复杂,增加了均恒,CDR,Gearbox,以及400G还要加入DSP等功能,光模块的寄存器也越来越复杂,带来了和交换机之间的性能兼容问题越来越多。而数据中心的业务对于IDFA、丢包的要求也越来越高,实际在交换机使用和工厂测试的性能也有不同,包括在工厂无法测试FACE纠错。
2、建设和运维。过去在这方面比较粗放,导致运维的大量工作,包括端面脏污,光纤连接等问题,因此未来会考虑在运维方面配备专门的检测工具。第二,由于光模块的种类繁多,给现场建设人员也带来了识别的困难,同时在出现问题时可以迅速响应解决。第三,考虑在线升级,一旦光模块设计出现Bug,不像交换机可以在线升级操作,必须把光模块拆下来返厂,带来了人力成本和网络稳定的问题,未来期待模块厂商可以考虑在线升级,或者开放性可编程。
3、失效率,过去我们所理解,由于数据中心的机房环境较好,产品迭代快,对光模块的性能、寿命要求没有那么高,但在失效率的要求上并没有放松,因为数据中心光模块的用量非常大,失效率的故障会导致运维部门大量的修复端口故障以及带来备件库存成本等问题。
百度的系统部陈刚则侧重对数据中心运维方面,陈刚表示2008年到2014年Google的数据中心流量增长了50倍,而百度数据中心流量在过去的几年来一直呈现50%以上的增长速度。百度的数据中心分为2017年前可以支撑2万台以内数量服务器的Four-Post结构和2017年之后可支撑超过2万台的Clos Fabric三层架构,目前百度的数据中心TOR以10G互联为主,向上互联以40G为主。对于数据中心光网络来说,运维监控是一个很大的难题,不同的覆盖范围均有不同的技术选型,光纤连接选型和模块类型,在数据中心内部有种各样的运维系统,很难能够一次全程监控。
百度的数据中心采见的三种运维场景包括:硬件故障,采集所有设备的日志进行监控分析,网关系统进行故障报警已经可以很好地解决;二是链路故障:通过一些脚本用Ping工具即可实现监测;但第三种,误码和丢包的故障最为困难:一个数据中心的链路非常巨大,单一的TOR就有上万条链路,所以采用软件的方案监测每条链路的情况。整合基于SDN/IBN思想的智能管控编中心。为了实现更智能的网络运维管理,百度期望未来可以营造可编程的环境,使得运维人员能够自定义管理控制面功能和接口,同时IP与光层控制和调度。
陈刚同时分享了百度数据中心光互联技术的规划,2017年百度的数据中心中,交换机到交换机基于QSFP28 100G SR4,CWDM4的模块连接,服务器到交换机采用25G AOC SFP28连接;预计到2021年百度将规模部署QSFP-DD 400G DR4,FR4,SR4.2,服务器与交换机的连接将采用100G AOC SFP56-DD。
阿里与百度的演讲,同时向我们传递出对于数据中心光互联智能监测与运维方面的巨大需求和挑战。