智通财经APP获悉,天风证券发布研报认为,GPT-4o的发布代表了OpenAI模型作为智能代理的初次亮相,即它展示了更强的交互的能力,包括数据理解和分析能力、视觉理解能力、情感识别和输入、更流畅的交流体验。随着跨越文本、音频和视频的端到端模型GPT-4o的推出,预计OpenAI未来模型将在多模态能力方面不断提升。同时,Google在发布会上展示了其Gemini1.5模型的出色能力。从长期来看,该团队认为今年最值得关注的是模型架构和算力结构的变化,特别是大模型加上数量价值的变化。
GPT-4o:5月14日凌晨,美国OpenAI公司推出可免费使用的全新旗舰AI模型GPT-4o。1)多模态:接受任何文本、音频、图像和视频的组合作为输入,并生成任何文本、音频和图像输出的组合。2)响应速度快:可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。3)语言和代码能力出色:在英文文本和代码上与GPT-4 Turbo的性能相匹配,在非英文文本上有了显著提升。4)使用成本低:在API使用方面,GPT-4o较之前版本价格降低一半且速度有所提升。
谷歌I/O开发者大会:5月15日凌晨,谷歌在2024年I/O开发者大会上发布了一系列AI产品,重磅级的发布包括轻量化的模型Gemini 1.5 Flash、AI智能代理Project Astra、视频生成大模型VEO、强大的AI搜索、视频生成模型Veo、第六代TPU Trillium等,Gemini 1.5 Pro的上下文窗口也从100万tokens升级到200万。
GPT-4o模型的多模态能力为AI交互体验带来了革命性的变化,能够同时处理和生成文本、音频和图像,同时谷歌发布会GoogleI/O 2024发布会推出了多款重磅AI相关产品,AI技术迭代将在多个领域为用户带来更好的体验感:1)教育:GPT-4o 可以提供更加个性化、深入的教学辅助,为学生提供更丰富的学习资源和定制化的学习体验。2)AI助手:GPT-4o的智能程度更高,能够更准确地理解用户需求,理解用户的情感,提供更加智能、自然的对话交互,并且能够更好地处理复杂任务和多轮对话。3)数据分析:GPT-4o能够更快速地处理大规模数据,并且具备更深层次的理解和推理能力,可以更快地发现数据中的模式和趋势,提供更加精准的数据分析和预测。4)AR/VR领域:为AR/VR应用提供更加智能、自然的交互体验,使用户感受到更加沉浸式的虚拟世界,并且能够根据用户的反馈和环境变化实时调整交互内容。
风险提示:AI发展不及预期、AI商业化不及预期、AI竞争加剧