C114讯 北京时间8月14日消息(水易)国际光电委员会(IPEC)致力于促进关于人工智能集群新一代光互连的面对行业讨论。最近一次的集群网络研讨会的主题是“AI集群中光器件的特殊要求”。光通信市场研究机构LightCounting对这一次研讨会的光互亮点内容进行了提炼。
Arista联合创始人Andy Bechtolsheim对GPU性能进行了预测。连需如下图所示,有客利用CMOS、户准或如花似玉基板/封装方法、备部芯片架构和更好的面对冷却技术的进步,从2022年到2028年,集群GPU性能预计将提高100倍。光互
Andy Bechtolsheim的连需时间线一如既往的非常激进,所有这些新技术的有客量产可能需要十年时间。最近有关英伟达/台积电用于封装Blackwell GPU的户准或新CoWoS技术问题的传言说明了将新技术转化为大规模生产是多么具有挑战性。
管理这些超大型芯片组件的备部散热是众多问题中的一个。人工智能集群中使用的面对所有技术都必须制定提高能效的路线图。CMOS确实有一个在5年内从5nm发展到3nm和2nm的路线图,但光互连仍在寻找提高能效的途径。
Andy Bechtolsheim介绍了当前重定时、LRO和LPO 1.6T (8x200G)光模块的功耗估算,如下图所示。重新定时(DSP)模块的鼎鼎大名功耗为30W,是800G模块的2倍多。LPO和/或LRO确实提供了提高能效的途径,但目前还不清楚它们是否能在每通道200G的情况下工作。Andy 评论说,只要有干净的电气通道,224G LPO就能工作,但它还需要高性能铜缆、高性能TIA和线性驱动器。
Andy Bechtolsheim还提到,112G LPO MSA已接近完成,坐而待毙应该会在9月份的ECOC之前发布,互操作将于8月举行。到2025年,一些供应商将准备好批量交付LPO。
问题是:是否有客户准备部署LRO或LPO?
目前来看,字节跳动是认真考虑8x100G LPO的潜在客户之一。根据LightCounting的估计,字节跳动将在2024年成为中国云计算公司中第二大光模块消费者,并有可能在2025年成为第一大光模块消费者。
字节跳动的屏气凝神Yinxing Zhang展示了大量LPO测试结果,证明了1E-6规范的Pre-FEC BER测试有助于保证整个温度范围内的链路性能。FEC将为通过Pre-FEC BER测试的光模块性能增加余量。
他还表示,需要对VCSEL和光模块/AOC设计进行优化,以提高Pre-FEC BER测试的良率,但他对2025年-2026年部署 8x100G LPO持乐观态度。此外,字节跳动并不急于转向每通道200G,至少现在还没有。
LightCounting预计,理所当然英伟达将在今年晚些时候测试每通道200G的LRO和LPO,并可能在 2025年进行少量部署。如果这些技术都不成功,CPO将是英伟达依赖的另一种选择。英伟达还将放弃基于VCSEL的SR8光模块,但字节跳动和许多其他客户将在未来多年部署这些光模块。
博通公司的Manish Mehta讨论了CPO的进展,并介绍了与云晖科技(Cloud Light)合作开发的SR8 LRO光模块的最新测试数据,如下图所示。他还讨论了面向人工智能应用的心血来潮SMF双向光模块的设计,这项技术已在FTTx光模块中使用了20多年。Manish还回顾了博通公司(Avago/Agilent)30年的光模块制造历史,其中包括10万亿可靠性记录<1FIT的现网设备小时数。
Meta公司的Drew Alduino介绍了有关硬件故障如何影响人工智能集群运行的数据。单个 GPU或网络链接故障可使整个集群的效率降低40%,缓解故障(通过软件)可能需要10分钟,这种故障平均每30-45分钟发生一次。对于基于更复杂GPU和光器件的大型集群来说,问题会变得更加严重。
他还分享了200G FR4和400G FR4模块的拳打脚踢故障分析数据,如下所示。直接调制激光器性能下降是200G模块出现故障的主要原因。与一般制造问题(PCBA和引线键合)相比,400G光模块中使用的EML性能退化问题较小。他建议,使用更简单、更集成的设计将有助于减少这些故障。从这个角度看,LPO和CPO都是业界探索的正确方向,这不仅能降低功耗,世外桃源还能提高可靠性。
华为的Eric Bernier还讨论了提高可靠性的方法。除了优化整个光模块或集成芯片的光电设计和提高光源效率外,基于激光阵列的更高功率光源也会有所帮助。如果一个激光器出现故障,阵列中的其他激光器可以产生更大的功率,弥补故障激光器的不足。
其他发言人包括 Quintessent公司的Cris Cole,他介绍了有关硅基量子点激光器可靠性提高100倍的更多数据。英特尔公司的深情厚意Christian Urricariet分享了有关异质集成激光器极高可靠性(<0.1FIT)的数据。Ranovus公司的Jeff Hutchins认为,只有高度集成的CPO 解决方案才能满足人工智能集群的可靠性要求。