信达证券:AI产业川流汇聚 2025年有望云端两旺

Blackwell系列的推出有望打开推理市场,各类AI终端有望掀起持续的机遇。

智通财经APP获悉,信达证券发布研报称,展望2025年,Blackwell系列的推出有望打开推理市场,各类AI终端有望掀起持续的机遇。此外,AI产业的闭环有望刺激云厂商资本开支,云端共振共同发展。建议关注英伟达产业链传统的核心厂商,如ODM、PCB厂商等。另一方面,B系列带来的新兴赛道如铜连接、AEC赛道也值得关注。

Blackwell众多技术突破,整体以机柜形式交货

GB200机柜有NVL36和NVL72两种规格。GB200 NVL36配置中,一个机架有36个GPU和9个双GB200计算节点(以托盘为单位)。GB200 NVL72在一个机架中配置了72个GPU/18个双GB200计算节点,或在两个机架中配置了72个GPU,每个机架上配置了18个单GB200计算节点。每个GPU具有 2080亿个晶体管,采用专门定制的台积电4NP工艺制造。所有Blackwell产品均采用双倍光刻极限尺寸的裸片,通过10 TB/s的片间互联技术连接成一块统一的GPU。此外,B系列还有众多突破,支持4位浮点(FP4)AI。内存可以支持的新一代模型的性能和大小翻倍,同时保持高精度。

互联方面,第五代NVLink技术实现高速互联。NVIDIA NVLink交换机芯片能以惊人的1.8TB/s互连速度为多服务器集群提供支持。采用NVLink的多服务器集群可以在计算量增加的情况下同步扩展GPU通信,因此NVL72可支持的GPU吞吐量是单个8卡GPU系统的9倍。此外,Blackwell架构在安全AI、解压缩引擎、可靠性等方面也实现了不同程度的创新和突破。

Blackwell或成推理市场的钥匙,FP4精度潜力较大

目前模型参数变大的速度放缓,但模型推理和训练的运算量仍高速增长,尤其在o1引入强化学习之后,post scaling law开始发力。英伟达在发布H100架构时,便就FP8数据精度做出一定讨论。

业界曾长期依赖 FP16 与 FP32 训练,但这种高精度的运算,在大模型LLM中受到了一定阻碍:由于模型参数等因素导致运算骤升,可能导致数据溢出。英伟达提出的FP8数据精度因为占用更少的比特,能提供更多运算量。以NVIDIA H100 Tensor Core GPU为例,相较 FP16 和 BF16,FP8 的峰值性能能够实现接近翻倍。FP4精度是FP8的继承和发展,对推理市场的打开有重要推动。GB200推出了FP4,FP4支持由于降低了数据精度,性价比相比H100几乎倍增。

根据Semianalysis的数据,GB200 NVL72在FP4精度下,FLOPS相比H100可以最高提高405%(注:H100最低以FP8计算),由此带来性价比提升。目前,FP4的运算已经可以在大模型运算中广泛应用,且已有研究表明网络可以使用FP4精度进行训练而不会有显著的精度损失。此外,由于模型推理中不需要对模型参数进行更新,相对训练对于精度的敏感性有所下降,因此B系列相对于训练,在推理领域会更有优势。B系列引入FP4精度后,大模型在云侧和端侧的协同都有望实现跃升,这也是看好接下来的端侧市场的原因之一。

风险因素:宏观经济下行风险;下游需求不及预期风险;中美贸易摩擦加剧风险。

智通声明:本内容为作者独立观点,不代表智通财经立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。更多最新最全港美股资讯,请点击下载智通财经App
分享
微信
分享
QQ
分享
微博
收藏