在数据中心中引入光交换:专访清华大学徐葳老师
发布时间:2016-03-31 12:59:31 热度:5360
清华大学交叉信息学院徐葳老师及其团队和美国新泽西的初创公司Torray还有普林斯顿大学计算机系合作在今年OFC上的Post Deadline阶段发表了一篇题为“12机架,180服务器数据中心网络利用多波长光交换和全堆栈优化”的学术文章(TH5B.6)。从清华大学徐葳老师个人网页可以看到,徐博士2010年从加州大学伯克利分校获得博士学位,随后加入谷歌公司工作。2013年回国获选国家青年千人计划,目前是清华大学交叉信息学院助理教授。他还是Facebook的OCP项目中国认证实验室负责人。
众所周知,每年OFC的Post Deadline阶段都是学者们趋之若鹜希望有文章中选的地方。徐葳老师团队能有文章中选,首先证明了他们的学术成就。对于他们的这篇文章,编辑的兴趣还在于他们在数据中心中引入了光交换。而这正是这两年来编辑一直感兴趣的话题。就这篇文章编辑向徐葳老师提出若干问题,得到了他的及时回应。
CFOL:能介绍一下你们文中提到的Sodero公司吗?
徐:Sodero交换机是我们和徐磊的公司共同开发的,目前还不是正式的产品,手工做了12台我们自己在这个平台上用。
CFOL:在数据中心中引入光交换最大的好处是什么?现在的问题主要在哪里?
徐:目前数据中心网络的最大问题是,做系统的人什么负载都想往上边扔(所谓超融合就是指的这个)。一般人觉得10G,40G,100G的网络还不够么,当然什么都可以扔上去。但是这里的问题是汇聚层和核心层怎么做。现在的DCN的over-subscription太高,到了汇聚层之上还是很难避免拥塞。拥塞的主要问题倒不是带宽低了,关键是丢包之后延迟就没法保证了,这个在数据中心应用里边是致命的。当然也有人接成fat tree之类的可以有很多很多路径的方案,但是那些方案怎么把流分配均匀了是个问题。用光网络的话,可以临时把容量调度到最拥挤的链路上去,可以去掉汇聚层和核心层的交换机(一般都是比较贵的)。这些都是优势。
CFOL: 相比此前我们看到的在数据中心中引入MEMS光交换,基于WSS的有什么好处?
徐:MEMS的方案过去做得比较多,算法也比较简单。但是根据我的理解,MEMS器件对于震动太敏感,在数据中心里边用可靠性不高。而且MEMS是个很多口很贵的设备,用的话就得一次直接上个好大的,不能做到逐步扩展。我们是完全基于ToR上的WSS,是可以逐步扩展的。当然这个算法就复杂一些。
CFOL:你们的算法主要解决了什么问题?什么是full stack 优化?
徐:我们的算法是比基于MEMS的要复杂,因为涉及几层的调度:包括波长的分配,光网络层的带宽以及流的调度。传统方案是一层一层单独做的,这个效果不够好。主要表现为几个方面,一是算出来的方案可能需要调整很大才能实现,调整过程很漫长,且调整过程中容易丢包;二是如果先定下来光路,也许有些更适合的流的分配就没法做了(相当于回到了固定光路的算法)。但是如果这几层结合起来考虑可变的东西有太多,这个优化问题是个整数规划的问题,是NP的。所以我们设计了这个高效的随机算法来求出一个可用的近似解。在求解过程中,我们充分考虑了不同波长分配下可行的流的分配,以及考虑了改变网络拓扑所需要的代价,并且在真正调整的过程中,会自动计算出一个合理的策略,让网络在调整的过程中不丢包不拥塞。因此我们叫做full stack 的优化算法。
CFOL:能再解释一下文章中提到的tail latency的意思吗?
徐:tail latency指的是99百分位的延迟。延迟这种东西,一般数据中心里的平均延迟都很低,但是对于应用服务质量(SLA)最关键的是那些最烂情况下的延迟,这种延迟就叫做长尾的延迟。因为这些延迟虽然少,但是某个用户如果赶上了,他的体验就很差。数据中心网络中很多工作都致力于避免这种延迟。我们通过优化不同链路的使用率,减少了因为某个链路上拥塞而导致延迟的可能性。
CFOL:将光层和网络层结合起来,难点在哪里?SDN在这里扮演了什么样的角色?
徐:结合光和SDN的难点在与这个跨层的算法的复杂度,我们是用上述的随机算法解决的。SDN可以让我们方便的在流的粒度上进行调度。如果不用SDN的话直接改变了物理层的光路,我们需要等一段时间才能让上层再次稳定,这个过程中会丢包。所以我们现在是用SDN的。我们正在考虑不基于SDN的解决方案。
CFOL:你们认为本文最大的意义在哪里?
徐:本文最大的意义主要有三个:1)我们展示了一个基于WSS的解决方案,说明了我们可以找到一个近似算法来求解跨光网络和流的联合优化问题;2)我们提出了适合数据中心的优化,即优化网络延迟而不是总体带宽。并且设计了一个新的优化目标来实现这个优化,就是最小化最忙链路上的流量。通过最小化这个值,我们可以减少拥塞的可能性。3)我们在一个具有一定规模的原型系统上验证了整个方案的可行性,证明了这个方案比之MEMS的方案在成本和实现难度上的优势。
CFOL:在你们看来,数据中心引入光交换的前提是什么?
徐:数据中心如果要引入光交换,首先要有足够大的数据中心,而且大家开始试图优化应用的性能。例如google这样的公司不断追求产品的质量和用户体验,他们就会去优化数据中心网络架构,特别是延迟这些指标。目前国内大部分互联网企业的数据中心还是处于粗放型管理的阶段,还没有去关心SLA这些细节指标。因此这个技术真的走入国内市场还需要一些时间。
光网络在国内还有另一个可能的推动力是去cisco之类的意愿。目前ToR谁都会做,但是真正好的汇聚和核心交换机还是需要一些大厂。我们一方面能赶上这些大厂的水平,一方面也许有人会考虑另外一条路,即用光网络来替代这些汇聚和核心交换机。走像本文所述这样的技术路线。
CFOL:问一个题外话,OCP在中国参加的企业多吗?你怎么看它和百度等类似的计划的关系?
徐:中国参加OCP的企业不少,都是各种ODM厂商,都试图向国外市场发展。目前最积极的内地企业要算浪潮。OCP目前在国内还没有市场,ODCC天蝎其实也没有。OCP和ODCC目前正在洽谈合作。
编者按:编辑就MEMS交换机的问题专门致信Calient CTO袁博士。他表示MEMS光交换通过隔离振动,完全可以做到适合DC应用。此外,MEMS的成本低,他们的MEMS光交换已经得到数据中心客户的部署。他同时认为相比WSS,还是MEMS更适合在DC应用。
众所周知,每年OFC的Post Deadline阶段都是学者们趋之若鹜希望有文章中选的地方。徐葳老师团队能有文章中选,首先证明了他们的学术成就。对于他们的这篇文章,编辑的兴趣还在于他们在数据中心中引入了光交换。而这正是这两年来编辑一直感兴趣的话题。就这篇文章编辑向徐葳老师提出若干问题,得到了他的及时回应。
CFOL:能介绍一下你们文中提到的Sodero公司吗?
徐:Sodero交换机是我们和徐磊的公司共同开发的,目前还不是正式的产品,手工做了12台我们自己在这个平台上用。
CFOL:在数据中心中引入光交换最大的好处是什么?现在的问题主要在哪里?
徐:目前数据中心网络的最大问题是,做系统的人什么负载都想往上边扔(所谓超融合就是指的这个)。一般人觉得10G,40G,100G的网络还不够么,当然什么都可以扔上去。但是这里的问题是汇聚层和核心层怎么做。现在的DCN的over-subscription太高,到了汇聚层之上还是很难避免拥塞。拥塞的主要问题倒不是带宽低了,关键是丢包之后延迟就没法保证了,这个在数据中心应用里边是致命的。当然也有人接成fat tree之类的可以有很多很多路径的方案,但是那些方案怎么把流分配均匀了是个问题。用光网络的话,可以临时把容量调度到最拥挤的链路上去,可以去掉汇聚层和核心层的交换机(一般都是比较贵的)。这些都是优势。
CFOL: 相比此前我们看到的在数据中心中引入MEMS光交换,基于WSS的有什么好处?
徐:MEMS的方案过去做得比较多,算法也比较简单。但是根据我的理解,MEMS器件对于震动太敏感,在数据中心里边用可靠性不高。而且MEMS是个很多口很贵的设备,用的话就得一次直接上个好大的,不能做到逐步扩展。我们是完全基于ToR上的WSS,是可以逐步扩展的。当然这个算法就复杂一些。
CFOL:你们的算法主要解决了什么问题?什么是full stack 优化?
徐:我们的算法是比基于MEMS的要复杂,因为涉及几层的调度:包括波长的分配,光网络层的带宽以及流的调度。传统方案是一层一层单独做的,这个效果不够好。主要表现为几个方面,一是算出来的方案可能需要调整很大才能实现,调整过程很漫长,且调整过程中容易丢包;二是如果先定下来光路,也许有些更适合的流的分配就没法做了(相当于回到了固定光路的算法)。但是如果这几层结合起来考虑可变的东西有太多,这个优化问题是个整数规划的问题,是NP的。所以我们设计了这个高效的随机算法来求出一个可用的近似解。在求解过程中,我们充分考虑了不同波长分配下可行的流的分配,以及考虑了改变网络拓扑所需要的代价,并且在真正调整的过程中,会自动计算出一个合理的策略,让网络在调整的过程中不丢包不拥塞。因此我们叫做full stack 的优化算法。
CFOL:能再解释一下文章中提到的tail latency的意思吗?
徐:tail latency指的是99百分位的延迟。延迟这种东西,一般数据中心里的平均延迟都很低,但是对于应用服务质量(SLA)最关键的是那些最烂情况下的延迟,这种延迟就叫做长尾的延迟。因为这些延迟虽然少,但是某个用户如果赶上了,他的体验就很差。数据中心网络中很多工作都致力于避免这种延迟。我们通过优化不同链路的使用率,减少了因为某个链路上拥塞而导致延迟的可能性。
CFOL:将光层和网络层结合起来,难点在哪里?SDN在这里扮演了什么样的角色?
徐:结合光和SDN的难点在与这个跨层的算法的复杂度,我们是用上述的随机算法解决的。SDN可以让我们方便的在流的粒度上进行调度。如果不用SDN的话直接改变了物理层的光路,我们需要等一段时间才能让上层再次稳定,这个过程中会丢包。所以我们现在是用SDN的。我们正在考虑不基于SDN的解决方案。
CFOL:你们认为本文最大的意义在哪里?
徐:本文最大的意义主要有三个:1)我们展示了一个基于WSS的解决方案,说明了我们可以找到一个近似算法来求解跨光网络和流的联合优化问题;2)我们提出了适合数据中心的优化,即优化网络延迟而不是总体带宽。并且设计了一个新的优化目标来实现这个优化,就是最小化最忙链路上的流量。通过最小化这个值,我们可以减少拥塞的可能性。3)我们在一个具有一定规模的原型系统上验证了整个方案的可行性,证明了这个方案比之MEMS的方案在成本和实现难度上的优势。
CFOL:在你们看来,数据中心引入光交换的前提是什么?
徐:数据中心如果要引入光交换,首先要有足够大的数据中心,而且大家开始试图优化应用的性能。例如google这样的公司不断追求产品的质量和用户体验,他们就会去优化数据中心网络架构,特别是延迟这些指标。目前国内大部分互联网企业的数据中心还是处于粗放型管理的阶段,还没有去关心SLA这些细节指标。因此这个技术真的走入国内市场还需要一些时间。
光网络在国内还有另一个可能的推动力是去cisco之类的意愿。目前ToR谁都会做,但是真正好的汇聚和核心交换机还是需要一些大厂。我们一方面能赶上这些大厂的水平,一方面也许有人会考虑另外一条路,即用光网络来替代这些汇聚和核心交换机。走像本文所述这样的技术路线。
CFOL:问一个题外话,OCP在中国参加的企业多吗?你怎么看它和百度等类似的计划的关系?
徐:中国参加OCP的企业不少,都是各种ODM厂商,都试图向国外市场发展。目前最积极的内地企业要算浪潮。OCP目前在国内还没有市场,ODCC天蝎其实也没有。OCP和ODCC目前正在洽谈合作。
编者按:编辑就MEMS交换机的问题专门致信Calient CTO袁博士。他表示MEMS光交换通过隔离振动,完全可以做到适合DC应用。此外,MEMS的成本低,他们的MEMS光交换已经得到数据中心客户的部署。他同时认为相比WSS,还是MEMS更适合在DC应用。