中信证券:看好本轮生成式AI浪潮对科技产业的长周期影响和改变

作者: 智通财经 李佛 2023-11-08 09:27:06
AI大厂正着力研发下一代模型,多模态能力是否会成为下一代模型的差异化重点?

智通财经APP获悉,中信证券发布研究报告称,多模态、智能Agent等正在成为当前全球生成式AI算法模型的主要创新方向,其中多模态亦将是人类实现和自然世界交互、理解的必然路径,以及借助大模型链接各类Agent的核心基础。多模态大模型算法的突破将带来自动驾驶、机器人等技术的革命性进步。同时多模态算法亦将带来底层算力需求的指数级增长。持续看好本轮生成式AI浪潮对科技产业的长周期影响和改变,继续关注算力、算法、数据、应用等环节的领先厂商。

报告缘起:

AI大厂正着力研发下一代模型,多模态能力是否会成为下一代模型的差异化重点?

自2022年底ChatGPT发布以来,全球产业、学术界在生成式AI算法领域的研究一直保持快速的迭代节奏,并在短期取得了较多的进展。在经历了早期的喧嚣之后,在不断追求规模的伸缩定律(Scaling Law)之外,市场亦在不断思考生成式AI算法的其他可能改进&发展方向。

在11月7日的OpenAI开发者会议上,公司CEO Sam Altman发布了最新的升级模型GPT-4 Turbo,该模型在上下文窗口(context)长度、可控性、知识结构、多模态、定制化、响应时间等主要层面做了较多升级&更新。作为生成式AI技术领域的引领者之一,OpenAI在算法层面的思考&进展,对于产业本身具有重要启示意义。

目前OpenAI以及谷歌等巨头已经开始布局未来,着力研发下一代模型。多模态能力作为一种融合多种数据输入(如文本、图像和声音)的技术,被认为有可能成为是下一代AI模型的差异化亮点。本篇报告将围绕多模态技术的特点阐述下一代AI模型的可能形态以及相应的投资机遇。

▍中信证券主要观点如下:

多模态技术:用处理文字的方式处理图片。

2023年6月,OpenAI发布了GPT-4V,这标志着AI多模态能力的重大进展,从处理纯文字到结合图像,GPT-4V展现了其关键的突破。8月份,OpenAI的首席科学家Ilya Sutskever在接受WSJ采访时明确表示:“OpenAI将主要研究多模态技术。卓越的多模态能力将增强模型的理解深度,从处理文字,到图像,再到视频,这预示着大模型逐步迈向AGI。”

从技术角度出发,当前的多模态模型在文字部分基本沿用了目前语言模型的预训练架构,而在图片部分会使用类似于ViT的Patch Embedding等方法将图片分割为小像素块再交给模型进行预训练。接下来,多模态模型会使用不同的方法将文字和图片的输入进行对齐。如T5、CliP的部分变体等模型会采用交叉注意力的技术使模型在理解一种模态内容时考虑到另一种模态的上下文,帮助模型在处理一个模态的同时,捕捉到与另一模态的直接关系,这也让多模态模型从真正意义上做到同时理解了文字与图片。

多模态优势:更好的理解能力与鲁棒性,下一代AI模型的主要形态。

自2022年11月ChatGPT亮相以来,主流的大型模型主要集中在文本处理上,利用众多网络文本进行训练。文字数据的优势在于易于获取和相对较高的信息密度,同时,文字内部的语法和语义结构助力于大型语言模型的深度理解。但现如今,大部分互联网上的公开文本数据已被广泛利用,大公司如微软和Google则通过他们特有的Github和YouTube字幕库等数据源寻求优势。

然而,单纯依赖文本的训练数据会受到其增长的限制,多模态模型为AI训练提供了新的广阔天地。这种模型不仅处理文字,还能分析图像,更有效地应对数据中的噪声和复杂性。例如,在新闻推荐系统中,纯文本可能难以完整传达某旅游景点的壮观之美,而结合多模态技术,系统能够整合文字和图像信息,更精确地判断用户兴趣,从而提供更为贴近用户的推荐内容。

产业场景:多模态将带来如AI Agent等关键性的落地场景突破,解决现有产品的主要痛点。

预计下一代多模态将会快速拓展目前大语言模型有限的应用场景,为图片与文字之间的转换将带来更多的可能性。当前在应用场景方面,发现纯文字模态模型落地的一大痛点是:在实际场景中,极少遇到纯文字内容的场景,而大语言模型在各类场景中的表现往往不如传统的专有机器学习模型。

而加入图片模态后,可以提高模型的泛化能力,并通过结合图片与文字信息进一步理解用户的意图。在这种情况下,多模态语言模型有望真正在成本方面展现出对传统专有模型的优势,从而推动如AI Agent等应用的落地。

技术进展:OpenAI与Google先行,算力仍是重要约束。

6月份,OpenAI推出的GPT-4V已将语言模型从纯文字模态拓展至图生文模态。OpenAI进一步在官网中提及,GPT-5的研发已经启动,预期它将增添文生图模态,以实现对整体图片模态的支持。对比市面上的诸如Dalle2这样基于扩散模型的文生图模型,GPT-5预计将基于Transformer架构实现,意味着其语言与图片模态可以在底层实现更好的统一。

OpenAI的竞争对手Google在上一代Bard模型未能如期表现后,已转向其新一代Gemini模型的研发,它亦预计将支持图片模态的多模态能力。根据OpenAI和Google过往模型发布的频率,预测GPT-5与Gemini的发布时间将在明年的春末或夏初。

然而,无论研发多么迅速,多模态模型的广泛部署和应用仍受到算力瓶颈的限制。目前,像ViT这样的模型在处理图片时的策略是将图片划分为若干固定大小的像素块,然后将这些像素块转换为线性向量,接着像处理文字一样处理这些向量。以一个常规的1920*1080像素的图片为例,其向量表示将需要大约24MB的存储空间。

在传统的纯文字语言模型中,24MB的存储空间可以处理约4000-6000个单词。如果假设使用500个单词来描述图片中的全部信息,那么处理图片所需的算力大约是处理文字的8-12倍。虽然这个估计可能不完全精确,但它确实表明以当前的算力支持大量用户同时运行多模态语言模型仍是一个挑战。

风险因素:

AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管风险;全球宏观经济复苏不及预期风险;宏观经济大幅波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。

智通声明:本内容为作者独立观点,不代表智通财经立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。更多最新最全港美股资讯,请点击下载智通财经App
分享
微信
分享
QQ
分享
微博
收藏