1/29/2021,2020年,注定会成为人类历史上不平凡的一年。疫情,这场没有硝烟的战争,让我们每一个人在2020年都抒写出了属于自己的,或伤感、或迷茫、或精彩、或励志的故事,而这些故事,汇聚成了我们的2020年。
在疫情最严重的时候,线上办公,让我们再一次印证了信息技术给包括我们在内的所有人能够带来的莫大帮助。从相隔数里到远隔重洋,在无情的疫情面前,线上,成为了承接我们智慧与创造的坚实平台。
在疫情所带来的影响及变化下,TOOP也同样面临着前所未有的挑战与机遇。在这样不平凡的一年中,我们勇敢地直面挑战,果断地抓住机遇,回首经年,我们收获颇丰。相信在2021年,我们会继续翱翔乾坤间,长空振翅冲云霄。
Flex-grid与400G DCO升级现网规模部署
TOOP的2020迎来了重量级升级,在9月的CIOE上TOOP发布了2款新产品。基于CFP2-DCO的T2X4C8电层子卡与支持Flex-grid的CMUX-64子卡,让TOOP成为了一套完整的DWDM系统:OPC-4光层+TPC-4电层+TOC控制器的组合让TOOP具备端到端的柔性光网络交付能力。经过一段时间的系统测试后,我们高兴的宣布:
基于CFP2-DCO可插拔模块的400G方案结合CMUX-64的Flex-grid光层平台正式规模上线服役啦!并且随着Flex-grid功能的规模部署,无论是当前65Gbaud, 69Gbaud的单波400G还是未来128Gbaud的单波800G系统无需更换OPC光层器件,平滑支持未来速率演进。
兼顾成本与不确定性
相比数通产品,波分系统相对封闭。继光电解耦之后,这一次我们的变革触及到波分系统的核心器件——相干模块。传统的电层单板采用5”x7” MSA模块方案,不同的芯片组需要设计不同的业务板卡,对应的子框与控制器都需要开发工作,增加了适配与测试成本。这就好像早期的智能手机,不同的手机有不同的数据接口,与电脑连接时需要不同的驱动,数据线也互不通用,用户使用起来很不方便。
可插拔相干模块(DCO)方案,就好比当下的智能机,手机型号可能千奇百怪,但数据接口基本统一,一根type-C的数据线便可让不同厂商的手机连接电脑,也无需在安装繁琐的驱动,提供了应用的便利。DCO方案赋予用户更多灵活性,用户可以在DSP与TROSA之间根据性能与成本特性选择不同芯片组方案。不同的相干模块可以在同一块板卡上部署,硬件的差异性在板卡层面屏蔽,无需担心模块会对控制器带来额外的适配工作。
可插拔相干模块让波分系统的核心器件解耦成为了可能,从而进一步的降低成本和保证供应链体系的安全,也极大的简化了系统开发的复杂度。
通过统计全网光缆的损耗分布情况,我们发现在四纤三路由应用场景下普通400G-ZR模块无法承担性能需求。而采用CFP2封装的DCO,内部通过SOA或EDFA提高发光功率,芯片也可获得更高的功耗支持,性能高于普通的400G-ZR模块,CFP-2 DCO采用与400G-ZR采用相同DSP芯片,成本稍有上浮适合需要一定性能需求的应用场景。
TOOP的400G的微创新
TOOP旨在通过技术创新来降低CapEx与OpEx。我们在设计400G时吸取了传统系统的一些问题,站在巨人的肩膀上再从需求角度对相干模块进行了功能的深度定制化。
电芯片层面加了性能预判机制
相干系统通过强大的FEC(前向纠错编码)技术实现对传送的bit进行错误修正,FEC编码算法就像微信的语音转换文字功能,其具备一定的口音纠错能力。进行语音文字转换时,算法会根据语意来判断是否修正口音带来的干扰。当你的口音很重或者引入过多方言时,超过算法的容忍上限时其转换也会出错。如同我们可以用转换正确率来评估普通话标准与否一样,我们可以根据Pre-fec前向纠错误码率来评估系统的性能情况。TOOP通过CFP2-DCO的Pin37 管脚来上报pre-fec前向纠错编码超限的事件,实现了对性能劣化事件的提前关注。当DSP检测到Pre-fec越过设定门限,即拉高Pin37管脚,为业务的无损切换提供可能性。
业内首创的DSP收敛计时上报,实现业务受损时间监控
引入了DCO模块收敛计时功能,如上图所示,TOOP系统可以记录光路倒换过程的持续时间,包括光保护(OP)板卡的光开关切换时间与DCO模块的业务中断时间。我们定义了DCO模块的业务中断计时功能,定义0x910e(高位)与0x910f(低位)寄存器内储存了DSP收敛时间,其十进制值即收敛时间,单位us,上图中的测试结果为4971us=4.971ms,这样的数据协助我们诊断系统的性能问题。例如,当某次保护切换事件发生时,OP开关切换时间较短,而DSP的收敛时间较久,则说明线路性能余量不足,在光信号劣化至光开关切换门限值之前DSP已经产生了误码。
DSP收敛时间这个功能让我们第一次在ms级尺度上对一个瞬态进行描述,目的是减少上层业务的感知,进一步优化四纤三路由系统,让我们打造更加可靠且稳定的底层系统。
DSP 色散扫描范围自动配置
当前400G场景下,因光缆中断而引起的倒换事件对业务的影响时间由原先的100ms级别(业务层面丢失时间),降低到了10ms级别(业务层面丢失时间),从而降低光缆中断引起的业务损失。
在线路开通时,OPC-4的OTDR会探测线路实际距离(主备用路由收发双芯分别探测),通过距离配置DSP的色散扫描范围,由默认的-20000~2000ps,配置成符合主备用光缆距离的实际值,例如-5000 ~ 2000ps,得益于DSP的算法优化与色散扫描范围的自动配置,通过减少DSP的resync的色散搜索时间,进一步提升保护倒换的速度,进而减少业务受损时间。
根据实际测试结果,仪表显示波分系统在保护倒换过程中的切换时间最长为8ms,最短为3.8ms,上图左侧部分显示通过交换机加载流量端到端测试结果,TOOP 400G系统在倒换过程中速度更快,减少了业务受损时间,为线上服务的可靠性提供了有效保障。
DCO自动测量端到端RTT时延功能
通过下插探测信号序列,实现DCO寄存器读取线路RTT时延,从而对开通系统的线路性能指标进行准确预估,此功能为自动重路由功能提供了数据基础。
DCO内全量PM数据秒级telemetry提取
定义超过85项的PM数据通过telemetry进行秒级采集,是业内第一次将ASIC中的信息进行如此全面的采集。进而通过数据分析提供DCO硬件故障预测与线路状态预测功能,T2X4C8单板具备硬件反馈机制,该机制使子框内OP-6单板支持通过DCO的BER触发OCH1+1保护倒换。
海量的PM数据是我们未来重点挖掘的数据宝藏,这将赋予我们一些侦测线路信息的能力。
如上图所显示,不同的光缆长度对应的色散补偿值不同,例如某光缆割接后距离发生变化,通过色散数据可立即识别到光路发生了变化,联动控制器进行OTDR测试并告知维护人员光缆发生了路由改变。我们正在对这一系列数据进行挖潜,目的是在系统受损前进行业务止损操作,提升服务可靠性。我们甚至可以通过这些参数得知光缆割接过程中的误操作,例如G.652光缆与G.655光缆混接等等,传统系统无法感知或定位耗时的问题可以通过这些数据解答。
打个硬广,我们有海量的性能数据,我们上线以来已经积累了数百Tbits的数据。我们希望通过运用这些数据去推断并抓取光缆的特征值,进而实现对光缆的发生变化进行提示,包括同路由分析,光缆中断预测等。希望有兴趣的优秀毕业生加入腾讯网络平台部,让我们一起打造更稳定的网络系统。
TOOP向柔性网络演进,Flex-grid 为我们打造未来平台
TOOP首次在DCI平台引入灵活栅格技术(flex-grid),实现了柔性光网络的能力。在面对400G以及400G+场景的平滑演进提供了基础。TOOP选择了简单作为其设计语言。通过友好的施工管理设计,利用MUX-PAENL对64个通道进行散出,背面与前部走线设计减少布线复杂度。控制层面通过拓扑管理组件实现简明扼要的指示,避免维护时的复杂度。
CMUX-64单板与MUX-PANEL采用了专利设计,实现了低损耗的OMSP与Flex-grid应用。在点到点OMSP场景时无需额外增加OP单板即可实现,在采用OCH1+1场景或无需光层保护场景时也不会额外增加插损。整体功率计算符合链路落波与合波需求,满足400G及400G+场景的需求,该系统可以平滑向未来演进,进而降低光层的重复投资与提升频谱利用率。
CMUX-64所采用的WSS器件具备优秀滤波特性,让我们减少了对DCO模块内置TOF的需求,进一步降低DCO模块的成本。同时Flex-grid赋予我们无需标准化FEC,两端IDC的不同DSP厂商的DCO可以自适应匹配,无需繁琐的现场操作。这里划重点,TOOP产品的设计语言是“简”,我们希望现场处理问题的方式就是安装与替换,缩短系统开通与故障处理的时间,提升业务的可用率。电层设备与合波器之间的频率分配,互联关系等问题可以做到无图纸化施工,我们引入了自适应功能来实现匹配波长功能。同时CMUX-64可以针对不同模块的发射功率差异与不同波特率的问题,包括正在测试中的基于PCS-16QAM的69Gbaud CFP2-DCO的高性能 400G所需81.5GHz频谱间隔应用,采用Flex-grid可以很好的解决。
如何快速的、自动的、准确的调整波分系统各节点功率是一个业内难题,在引入CMUX-64后,我们增加了系统调节点,其中CMUX-64中的2个32纬度WSS器件,通过自动/手动配置WSS针对各通道VOA,通过控制器的集中控制可以实现入纤的平坦度的调节。
关于TOOP 2021的一些技术讨论
TOOP今年将重点丰富TOC控制器的各项功能,针对自动化进行一些列复杂的迭代。我们的目标是将传统后验的故障处理向提前感知进行演进。此部分请持续关注鹅厂网事,也欢迎感兴趣的小伙伴加入到我们的行列,让我们一同把传送系统变得更加“简单”!
关于硬件,TOOP在2021年不会有Super C-band(C++方案)的应用,不会有96Gbaud 800G应用。TOOP会继续在C-band场景下进行部署,从目前器件成熟度角度来看下一目标是实现C&L-band应用,但是不会选择Super C-band或 Super C&L-band方案,分析如下:
图片
1.由于受激拉曼散射(SRS),短波长能量向长波长传递,导致短波长插损更大,C+L波段进一步增加插损。Super C+L会让此劣化趋势更加显著。
2.按照当下7nm 芯片400G场景来计算,Super C&L-band比C&L-band容量增加有限(51.2Tbps vs 54.4Tbps),但是成本要高30% -40%,因而我们认为C+L是目前性价比更好的方案。
关于96G波特率的800G产品,由于性能与开发成本原因,TOOP选择跳过96G波特率的产品,目标锁定在128G+波特率的800G产品。
写在最后
TOOP是一个软硬组合的产品,也终于在这个特殊的年份中,TOOP成长成一套完整的波分系统。在设计整套系统的过程中,我们舍弃了很多功能,一直对系统做减法。“简”,简化,让设备简单化,是我们一直秉持的执念。我们相信一个简单的产品一定是低成本的产品。无论是器件成本、学习成本、使用成本,简单会带来成本的降低。就像今年某位朋友常提到的,Less is more,TOOP 会继续朝向把复杂留给“自己”,把简单留给“用户”方向演进。
其实从波分系统在DCI场景的演进来看,需求从单纯注重性能开始向功耗、数据为王的方向转变。如果将波分电层产品比做是汽车,DCI产品更像是新能源产品,0-100加速是几秒已经不在重要,相反自动驾驶、低使用成本、智能人机交互成为了主流。
回到波分系统本身,我们也已经度过了单纯看性能、容量去pk一个设备优劣的时代。性能满足需求即可,相反可维护性和数字化是我们所极致追求的,相信随着学习算法的引入,未来的光网络可以真的实现Zero-touch。
我们经历了光电解耦,打破了传统的封闭性,但通过实际部署时我们发现,从工程角度来看,混合部署反而增加了工作量。因此我们从去年开始标准化电层产品,牺牲了很多来换取规模部署的一致性。这对产业也是一次迭代过程,也是一个挑战。本次针对可插拔方案便是对相干器件解耦的探索,同时引入了众多高性能器件。我们发现其实降成本与高性能器件是可以兼顾的。考虑到DCO适配的复杂度,我们联合阿里、百度、快手正在ODCC框架下推动DCO的标准统一化,包括主要寄存器的映射关系、光学参数、告警以及功能等,欢迎感兴趣的同志们加入我们的行列,让我们一起打造更好用的光网络系统。
来自:鹅厂网事