OFC2022:和Andreas Bechtolsheim谈硅光CPO
发布时间:2022-03-14 22:35:00 热度:3047
3/14/2022,光纤在线讯,Andreas(Andy) Bechtolsheim是IT行业的传奇。他在斯坦福读博士期间参与共同创办了Sun微系统公司。他是谷歌最早的投资人之一。他是Granite系统公司的创办人,后来这家公司卖给了思科。他是VMware, Mellanox, Brocade和Magma Design等公司的早期投资人。他最新的身份是Arista的共同创办人和董事局主席。3月10日,Nextplatform网址编辑Timothy Prickett Morgan(TPM)发表了自己在OFC2022上与Andy关于硅光技术的对话。以下根据原文和雪球的翻译整理。
当前硅光CPO功耗比可插拔方案更高
考虑这个问题的最佳出发点是知道该技术是以降低功率为目的。换句话说,如果不是为了降低功耗,没有人会谈论CPO。显然,合封确实是一种封装技术——它不是一种新的光学技术,没有新的波长,不是新的光学接口。它实际上是在落实现有的 IEEE 光学行业标准,并且以更低的功率为目标。与可插拔模块相比,人们预测或想象使用CPO的功耗降低目标是 20%。
现在,在我们深入研究功耗问题后,可以看到它们主要来自四个方面:一个是交换芯片和光器件之间的电接口带来的,当然,如果你把它做得更短,你就可以需要更少的功率;第二个是 DSP 芯片,它不会有太大变化,因为它是由光学方面要求驱动的;然后第三是激光器和光调制器自身的功耗。所有这些加起来就是模块的总功率。
CPO减少了电通道长度,如果您有所谓的 XSR 通道,它是一个超低功率通道,与 VSR 通道相比,其长度只有几厘米,它能够驱动信号通过十英寸,这确实是省电的方案。但从来没有人制造过具有 XSR 通道的交换芯片,因为它没有市场。这是一个非常昂贵的设计,除非有投资回报,否则人们不会这样做。因此,到今天为止,还没有具有 XSR 通道的交换芯片。
在光学层面,除 Intel 之外的大多数方案都有外部激光源。如图所示,这个方案相比可插拔器件需要四个额外连接器。此外,外部光源还要光分路器,然后是光纤中的偏振,这个问题很难完美,总是导致一些额外的损耗。
采用外部光源,需要额外3 dB的激光才能在IEEE 规范要求的接口上实现相同的 0dB 输出,也就是要求激光功率翻倍。激光器在高温下效率也会降低。这都意味着更高的功耗。总之,为实现同可插拔模块相同的光输出,你需要额外的功耗。因为外部激光器的问题,今天的CPO实际上比可插拔器件功耗更高。
事实上,激光器还会带来其他问题。最坏的情况下,交换芯片处于高温状态,激光器的输出功率达到500mw,也会在运行中变得很热,它们的电输入功率将超过 10 瓦。因此,激光器的负担很重。还有的问题是连接器的污染问题可能会导致激光输出伤害光纤端面。
那靠什么来降低功耗?
相比硅光,新的光学调制方可能更有希望。CPO的历史与硅光技术密切相关,因为需要一种高效的制造技术将 16 个通道或 32 个通道放在单个芯片上,硅光正是这样的技术。然而,硅光有一个大问题,那就是有一个高插入损耗的调制器。硅光的链路上有大约15dB的损耗。因此要想降低功耗,最好的技术其实不是硅光,而是较新的技术,包括薄膜铌酸锂和钛酸钡,还有人做有机调制器甚至石墨烯调制器。这些技术都比硅光更低功耗。硅光只是一种更经济有效,更容易制造的技术,而不是更低功耗的技术。
在 Arista,我们实际上已经与一些主要供应商合作,以 800 Gb/秒的速度构建铌酸锂薄膜可插拔模块,使用 8 通道 112G/波长,7 纳米 DSP。
如今,与之竞争的硅光产品功耗在16瓦范围内,而采用相同 DSP的铌酸锂模块为 12.8 瓦。使用 5 纳米 DSP,我们预计常规硅光器件的功耗将降至 13.3 瓦,但铌酸锂模块功耗将达到 10 瓦。这是一个令人难以置信的功率降低。
不幸的是,这种改进在CPO中要困难得多,因为铌酸锂调制器并不小。它比传统的环形或 Mach-Zehnder 调制器大很多。因此,它不太适合CPO。但对于模块这不是问题。但是将 32 个通道放入带有 DSP 的 OIF 定义的尺寸中,仍然将非常具有挑战性。
现在,还有其他有希望的事情即将出现。我上面提到的 BTO 调制器将具有更低的插入损耗,并且在将电能转换为所需的调制光学效果方面具有更高的效率。所以也许他们可以达到更低的功率水平。他们在实验室中有一些很有前途的早期演示,但还没有完整的模块可以让我们对其进行测量;我们将在今年晚些时候或明年初拥有它。人们声称有机模块效率更高,功耗更低,但同样,这仍处于实验室阶段。铌酸锂调制器仍是原型,可能需要 18 个月或其他时间才能量产。
可以预见,我认为人们会对这些新的调制技术产生浓厚的兴趣,因为它是降低功率的最简单方法。我们认为目前业界最有希望的行动就是专注于低功率调制。
CPO面临的真正问题还在于,可插拔模块不用靠近交换芯片,是解耦的,可以在需要的时候才部署,支持大批量制造。但在CPO的世界中,您几乎必须提前两年选择要押注的技术。
从业务层面来看,当前供应链中几乎每一环节都在竞争。不仅可插拔光模块的供应商有很多,在新技术领域也有竞争,押注钛酸钡调制器的公司不会押注铌酸锂。这些初创公司现在都很乐观。但是问题是他们现在都不能量产。
功耗真的是个问题吗?
今天有些客户只关心成本。在节省功率方面,光器件或者光模块带来的节省是 20% 到 25%,但在数据中心级别,这是 1% 或更低。在包括服务器、存储和交换机在内的总功率中,光器件层面的节省并没有那么大的驱动力。
但是,对于每个机架或每个数据中心空间来说,他们的功率容量有限。客户通常没有选择也不能仅仅因为它们建于五年前而更换数据中心。这个功率容量限制,例如每个机架 2 千瓦。所以他们总是不得不保持低功耗。光器件的进步因此可以在这方面做出贡献。有些人可能愿意支付额外费用来达到这一目标。
就网络的高级目标而言,较低的功率是可取的。成本是一个单独的问题,但人们想要低成本、低功率和高可靠性,但正如我所说,低功率与高可靠性齐头并进,因为较低的激光功率已被证明是提高激光可靠性的最佳方式。
我认为整个论点的症结在于人们想要高可用性,他们想要低功耗,他们想要高带宽,但最难的是可靠性。并且专注于可靠性,还有一个可维护性方面。使用可插拔模块,这很容易。使用CPO,更换会非常昂贵,尽管外部激光源 (ELS) 是可插拔的,这解决了部分问题。但仍有 5% 的光学故障与 ELS 无关。如果您的系统中有 64 或 128 个ELS,它们可能会主导故障的次速。这不是一件令人高兴的事情,因为我们不想因为光器件发生故障而退回交换机。
云厂商的态度是什么?
每个人都想要高可靠和低成本的解决方案。这里我们需要讨论一个问题,那就是网络成本与用量高度相关。没有量,CPO永远不会比可插拔更具成本效益。如今可插拔模块每年产量 1000 万个以上,而CPO还在从零开始。所以问题是:CPO是否会量产,因为只有最终证明可靠、可制造且具有成本效益,才能实现量产。如果它更便宜,人们会注意的,对吧?但是今天,它并不便宜。需要大量数量才能变得更便宜。
四年前我曾预计超过 100Gb/秒的 SerDes 将非常具有挑战性,但现在很明显这不仅是可行的,而且会在 2025 年左右变成现实。这不会是CPO部署的转折点。
但这里还有第二个问题,因为它与外部激光器有关,特别是与Ayar Labs 的环形调制器技术有关。该技术在较慢的速度下是最佳的,即使用 NRZ 编码的 32 Gb/秒和 64 Gb/秒。它可能达到112G-PAM4,但我的理解是它无法轻松支持224G-PAM4,这意味着Ayar的技术本身无法解决高速I/O问题。当然,使用反向gearbox总是有可能从 224 Gb/秒下降到 112 Gb/秒,但反向gearbox的功率或成本效率不高。
Broadcom 声称CPO可节省 50%成本,这是基于避免光 DSP 并使用交换 SerDes 直接驱动光器件。确实如此,但是您也可以使用可插拔模块和合适的交换 SerDes 来做到这一点。
我们的坚定结论是,224 Gbps不会必然导致CPO。因此,除了降低功耗,CPO没有其他的优势。但是但是你可以通过改变调制技术更容易地降低功耗。
原文链接
https://www.nextplatform.com/2022/03/10/talking-silicon-photonics-signal-and-noise-with-andy-bechtolsheim/
当前硅光CPO功耗比可插拔方案更高
考虑这个问题的最佳出发点是知道该技术是以降低功率为目的。换句话说,如果不是为了降低功耗,没有人会谈论CPO。显然,合封确实是一种封装技术——它不是一种新的光学技术,没有新的波长,不是新的光学接口。它实际上是在落实现有的 IEEE 光学行业标准,并且以更低的功率为目标。与可插拔模块相比,人们预测或想象使用CPO的功耗降低目标是 20%。
现在,在我们深入研究功耗问题后,可以看到它们主要来自四个方面:一个是交换芯片和光器件之间的电接口带来的,当然,如果你把它做得更短,你就可以需要更少的功率;第二个是 DSP 芯片,它不会有太大变化,因为它是由光学方面要求驱动的;然后第三是激光器和光调制器自身的功耗。所有这些加起来就是模块的总功率。
CPO减少了电通道长度,如果您有所谓的 XSR 通道,它是一个超低功率通道,与 VSR 通道相比,其长度只有几厘米,它能够驱动信号通过十英寸,这确实是省电的方案。但从来没有人制造过具有 XSR 通道的交换芯片,因为它没有市场。这是一个非常昂贵的设计,除非有投资回报,否则人们不会这样做。因此,到今天为止,还没有具有 XSR 通道的交换芯片。
在光学层面,除 Intel 之外的大多数方案都有外部激光源。如图所示,这个方案相比可插拔器件需要四个额外连接器。此外,外部光源还要光分路器,然后是光纤中的偏振,这个问题很难完美,总是导致一些额外的损耗。
采用外部光源,需要额外3 dB的激光才能在IEEE 规范要求的接口上实现相同的 0dB 输出,也就是要求激光功率翻倍。激光器在高温下效率也会降低。这都意味着更高的功耗。总之,为实现同可插拔模块相同的光输出,你需要额外的功耗。因为外部激光器的问题,今天的CPO实际上比可插拔器件功耗更高。
事实上,激光器还会带来其他问题。最坏的情况下,交换芯片处于高温状态,激光器的输出功率达到500mw,也会在运行中变得很热,它们的电输入功率将超过 10 瓦。因此,激光器的负担很重。还有的问题是连接器的污染问题可能会导致激光输出伤害光纤端面。
那靠什么来降低功耗?
相比硅光,新的光学调制方可能更有希望。CPO的历史与硅光技术密切相关,因为需要一种高效的制造技术将 16 个通道或 32 个通道放在单个芯片上,硅光正是这样的技术。然而,硅光有一个大问题,那就是有一个高插入损耗的调制器。硅光的链路上有大约15dB的损耗。因此要想降低功耗,最好的技术其实不是硅光,而是较新的技术,包括薄膜铌酸锂和钛酸钡,还有人做有机调制器甚至石墨烯调制器。这些技术都比硅光更低功耗。硅光只是一种更经济有效,更容易制造的技术,而不是更低功耗的技术。
在 Arista,我们实际上已经与一些主要供应商合作,以 800 Gb/秒的速度构建铌酸锂薄膜可插拔模块,使用 8 通道 112G/波长,7 纳米 DSP。
如今,与之竞争的硅光产品功耗在16瓦范围内,而采用相同 DSP的铌酸锂模块为 12.8 瓦。使用 5 纳米 DSP,我们预计常规硅光器件的功耗将降至 13.3 瓦,但铌酸锂模块功耗将达到 10 瓦。这是一个令人难以置信的功率降低。
不幸的是,这种改进在CPO中要困难得多,因为铌酸锂调制器并不小。它比传统的环形或 Mach-Zehnder 调制器大很多。因此,它不太适合CPO。但对于模块这不是问题。但是将 32 个通道放入带有 DSP 的 OIF 定义的尺寸中,仍然将非常具有挑战性。
现在,还有其他有希望的事情即将出现。我上面提到的 BTO 调制器将具有更低的插入损耗,并且在将电能转换为所需的调制光学效果方面具有更高的效率。所以也许他们可以达到更低的功率水平。他们在实验室中有一些很有前途的早期演示,但还没有完整的模块可以让我们对其进行测量;我们将在今年晚些时候或明年初拥有它。人们声称有机模块效率更高,功耗更低,但同样,这仍处于实验室阶段。铌酸锂调制器仍是原型,可能需要 18 个月或其他时间才能量产。
可以预见,我认为人们会对这些新的调制技术产生浓厚的兴趣,因为它是降低功率的最简单方法。我们认为目前业界最有希望的行动就是专注于低功率调制。
CPO面临的真正问题还在于,可插拔模块不用靠近交换芯片,是解耦的,可以在需要的时候才部署,支持大批量制造。但在CPO的世界中,您几乎必须提前两年选择要押注的技术。
从业务层面来看,当前供应链中几乎每一环节都在竞争。不仅可插拔光模块的供应商有很多,在新技术领域也有竞争,押注钛酸钡调制器的公司不会押注铌酸锂。这些初创公司现在都很乐观。但是问题是他们现在都不能量产。
功耗真的是个问题吗?
今天有些客户只关心成本。在节省功率方面,光器件或者光模块带来的节省是 20% 到 25%,但在数据中心级别,这是 1% 或更低。在包括服务器、存储和交换机在内的总功率中,光器件层面的节省并没有那么大的驱动力。
但是,对于每个机架或每个数据中心空间来说,他们的功率容量有限。客户通常没有选择也不能仅仅因为它们建于五年前而更换数据中心。这个功率容量限制,例如每个机架 2 千瓦。所以他们总是不得不保持低功耗。光器件的进步因此可以在这方面做出贡献。有些人可能愿意支付额外费用来达到这一目标。
就网络的高级目标而言,较低的功率是可取的。成本是一个单独的问题,但人们想要低成本、低功率和高可靠性,但正如我所说,低功率与高可靠性齐头并进,因为较低的激光功率已被证明是提高激光可靠性的最佳方式。
我认为整个论点的症结在于人们想要高可用性,他们想要低功耗,他们想要高带宽,但最难的是可靠性。并且专注于可靠性,还有一个可维护性方面。使用可插拔模块,这很容易。使用CPO,更换会非常昂贵,尽管外部激光源 (ELS) 是可插拔的,这解决了部分问题。但仍有 5% 的光学故障与 ELS 无关。如果您的系统中有 64 或 128 个ELS,它们可能会主导故障的次速。这不是一件令人高兴的事情,因为我们不想因为光器件发生故障而退回交换机。
云厂商的态度是什么?
每个人都想要高可靠和低成本的解决方案。这里我们需要讨论一个问题,那就是网络成本与用量高度相关。没有量,CPO永远不会比可插拔更具成本效益。如今可插拔模块每年产量 1000 万个以上,而CPO还在从零开始。所以问题是:CPO是否会量产,因为只有最终证明可靠、可制造且具有成本效益,才能实现量产。如果它更便宜,人们会注意的,对吧?但是今天,它并不便宜。需要大量数量才能变得更便宜。
四年前我曾预计超过 100Gb/秒的 SerDes 将非常具有挑战性,但现在很明显这不仅是可行的,而且会在 2025 年左右变成现实。这不会是CPO部署的转折点。
但这里还有第二个问题,因为它与外部激光器有关,特别是与Ayar Labs 的环形调制器技术有关。该技术在较慢的速度下是最佳的,即使用 NRZ 编码的 32 Gb/秒和 64 Gb/秒。它可能达到112G-PAM4,但我的理解是它无法轻松支持224G-PAM4,这意味着Ayar的技术本身无法解决高速I/O问题。当然,使用反向gearbox总是有可能从 224 Gb/秒下降到 112 Gb/秒,但反向gearbox的功率或成本效率不高。
Broadcom 声称CPO可节省 50%成本,这是基于避免光 DSP 并使用交换 SerDes 直接驱动光器件。确实如此,但是您也可以使用可插拔模块和合适的交换 SerDes 来做到这一点。
我们的坚定结论是,224 Gbps不会必然导致CPO。因此,除了降低功耗,CPO没有其他的优势。但是但是你可以通过改变调制技术更容易地降低功耗。
原文链接
https://www.nextplatform.com/2022/03/10/talking-silicon-photonics-signal-and-noise-with-andy-bechtolsheim/