华泰证券：国内AI视频生成模型新突破持续看好视频等多模态发展前景

作者：智通财经严文才 2024-05-14 09:36:29

2024年1月，生数团队实现4秒视频的生成，已可以达到Pika、Runway的效果，至3月底实现8秒视频生成，4月实现16秒视频生成，在3个月内生成时长提升至4倍。

智通财经APP获悉，华泰证券发布研报称，北京生数科技有限公司联合清华大学发布了中国首个长时长、高一致性、高动态性视频大模型Vidu。整体来看， Vidu生成结果的动作幅度、画面一致性均处于国内领先水准。从视频模型横向比较看，Vidu快速进化，与Sora差距不断缩小，持续看好视频等多模态发展前景。

华泰证券主要观点如下：

全球AI大模型持续迭代，持续看好视频等多模态发展前景

今年以来，全球AI大模型端都持续迭代升级，包括海外的Sora、Llama3等，国内的Kimi、昆仑天工AI、阶跃星辰等。4月27日，北京生数科技有限公司联合清华大学发布了中国首个长时长、高一致性、高动态性视频大模型Vidu。行业的发展进度有望不断催化传媒相关板块的发展，华泰证券看好：1)AI视频大模型依赖多样化训练数据，高质量视频素材库价值凸显；2)AI大模型助力应用场景发展。

Vidu：国内AI视频生成模型新突破

Vidu采用了团队原创的Diffusion与Transformer融合的架构U-ViT，能够一键生成长达16秒、分辨率达到1080P的高清视频内容，其拥有丰富的想象力，能够模拟真实物理世界，并具备多镜头生成、时空一致性高等特点。核心团队来源于清华大学人工智能团队，首席科学家为清华人工智能研究院副院长朱军。公司的多模态大模型为全栈自研，能够融合文本、图像、3D、视频等多模态信息。除文生视频外，公司在文生图、3D生成等多模态能力上均有所造诣。

Vidu快速进化，与Sora差距不断缩小

2024年1月，生数团队实现4秒视频的生成，已可以达到Pika、Runway的效果，至3月底实现8秒视频生成，4月实现16秒视频生成，在3个月内生成时长提升至4倍，且据4月27日中关村论坛中生数领军人朱军的发言，Vidu会以更快的速度迭代，与Sora差距将越来越小。Vidu生成视频的运动幅度较大。除Sora外，目前文/图生视频较难做到让人物做出复杂动作，因此为了保证画面畸变最小，视频生成的策略为选择小幅度的运动，较难设计复杂动作，难以处理场景和人物的一致性问题。Vidu在保证了时空一致性的前提下运动幅度较大。分辨率赶上第一梯队，但仍为固定比例尺寸。

Vidu模型使用U-ViT架构，多模态、效果好、成本低

在U-ViT前，Diffusion模型中的主流主干(backbone)一直为基于CNN的U-Net。U-ViT是生数科技团队设计的一种简单通用的、基于ViT的架构，使用Diffusion生成图像，打响了扩散模型中CNN被Transformer取代的第一枪。模型首先对输入图像进行分割处理(分割为patch)，与时间和条件一道表示为token后通过Embedding层，随后经过Transformer Block后输出为token，并通过一个线性层转为图块，最后通过一个可选的3X3卷积层输出为最终结果。此外，U-ViT成本优势大幅领先，主要得益于ViT架构的训练成本较低。

风险提示：竞争加剧，模型发展进度低于预期，政策监管风险等。

智通声明：本内容为作者独立观点，不代表智通财经立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。更多最新最全港美股资讯，请点击下载智通财经App

华泰证券：国内AI视频生成模型新突破 持续看好视频等多模态发展前景

华泰证券：国内AI视频生成模型新突破持续看好视频等多模态发展前景