智通财经APP获悉,中金公司发布研究报告称,OpenAI在北京时间2023年3月15日发布了多模态预训练大模型GPT-4,性能更加出色并支持多模态输入。目前,GPT-4已可在ChatGPT Plus和API调用中使用。本次GPT-4发布是“文-图-视频”多模态趋势的向前一步,短期有望催化AI发展生态,长期关注应用端更多可能性。
▍中金公司主要观点如下:
GPT-4开启多模态时代,接受包含文本和图片的输入,理解能力强大。
GPT-4可以根据文本和图片的混合输入生成文本输出(包括自然语言和代码)。在含有文本和照片的文档、图表或屏幕截图等领域中,GPT-4的表现都非常出色,能够理解“梗图”、做计算题以及总结论文。
它也可以通过测试时技术(Test-Time Techniques)如few-shot和chain-of-thought prompting进一步扩展能力,图片功能目前仍处研究阶段,暂不对外开放。
高难度阈值与GPT-3.5的对比及基于传统的机器学习基准,GPT-4均效果更佳。
相比前代GPT-3.5,GPT-4在处理复杂任务时表现更为出色,在各大面向人类的考试中,GPT-4展示出了更高的准确性、可靠性、创造力和理解能力,比如在Uniform Bar Exam中,ChatGPT的成绩排名在后10%,而GPT-4的百分位在前10%。
在传统机器学习的基准测试上,GPT-4比包括SOTA在内的其他大型语言模型表现更优异,MMLU的基准上高出11.2%。在测试的26种语言的24种中,GPT-4优于其他大语言模型的英语性能。
GPT-4也已被应用在了在OpenAI内部,例如内容生成、销售和编程,并在模型训练的第二阶段负责输出评估、对齐工作。
此外,OpenAI开源了用于评价大语言模型的开源框架OpenAI Evals。这个框架可以帮助研究人员和开发者评估他们的模型,并提供更好的指导。
GPT-4进一步重视安全性,生成回复的正确性得到了重点优化。
OpenAI强调对模型进行评估和监控的重要性,以避免潜在的安全隐患。在OpenAI内部的对抗性真实性评估中,GPT-4的得分比GPT-3.5模型高出40%、对不允许内容的请求响应倾向降低了82%、对敏感请求(如医疗建议和自我伤害)的响应相符合政策的程度提高了29%。
不足之处在于,GPT-4仍缺乏对其数据截止日期(2021年9月)之后事件的了解,也难以从经验中学习,经过后训练的GPT-4的校准率低于基础预训练模型。
综合来看,GPT-4是大模型进军多模态的重要突破,有望打开应用天花板。
该行认为,本次GPT-4发布是“文-图-视频”多模态趋势的向前一步,短期有望催化AI发展生态,长期关注应用端更多可能性。
风险
技术进展不及预期,行业竞争加剧,商业化落地节奏不及预期。