智通财经APP获悉,中金发布研究报告称,未来Sora及类似大模型的迭代会持续推动计算量的扩张,算力需求“奇点”可能到来。但因当下单位算力成本依然较高,大模型构建者也在考虑一系列算法优化来节约计算量。该行认为,新时代下算力需求规模增长毋庸置疑,但同时降本也是客户的呼吁。该行相信“以价换量”模式会推动算力芯片市场规模再创新高,并支撑人类寻找到“世界模型”。
中金观点如下:
训练侧来看,Sora的算力成本理论计算值约为GPT-4的10倍。
根据该行测算,若Sora基于现实世界所贡献视频的一定比例训练,且输入数据考虑特定比例的时间压缩、图像分辨率不压缩,Sora的训练算力成本理论计算值可能达到约10倍GPT-4的水平,其主要原因源自于长token的问题,参数所贡献的计算量并不高(仅30B)。细化来看,若1920*1080分辨率视频仅进行帧率压缩,1min视频所转化到潜在空间内的patch可能高达百万级别(即1M token),长token导致的计算量大幅度上升是transformer架构模型难以避免的问题。虽然该行的理论推导得出Sora训练成本高于GPT-4的结论,但实际来看,因单位算力成本高,该行认为Open AI可能结合一些节省训练成本来获得高质量模型(如结合高质量大规模的数据标记、或结合低分辨率长视频+高分辨率短视频训练的方式),算力消耗的实际值可能会低于该行的理论计算值,这是当下大模型企业所努力的方向。
推理侧来看,Sora的算力成本理论计算值高达约GPT-4的2000倍。
由于扩散类模型去噪过程需要多步迭代、视频一致性问题需长token的一次性输出,以大语言类模型处理2k tokens,与文生视频模型生成1min视频做对比来看,该行得到Sora的推理算力成本的理论计算值可能会是GPT-4的2000倍,该行认为这需要算力性能更强的芯片来支撑;同时,当前主流GPU单机8卡推理可能面临算力不足的问题,文生视频模型在推理端需更大规模的AI芯片集群支持推理,有望带来光模块、交换机等设备需求。
积极关注可能节约算力的技术方向。
Transformer对于长文本的自注意力机制的计算量会随着上下文长度的增加呈平方级增长是既定事实,但该行近期也看到,如Mamba采用了可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。
风险提示:大模型技术发展不及预期;Transformer主流技术路线发生变化,理论计算可能与实际存在差异。