长江证券：OpenAI推出API新功能“结构化输出”，国内厂商发力开源多模态

作者：智通财经陈芊芊 2024-08-13 10:49:17

OpenAI新推出的模型API全部支持结构化输出，提高AI输出可靠性，简化开发流程，从而使得开发者可以精确控制AI模型的输出格式，确保数据的准确性和一致性。

智通财经APP获悉，长江证券发布研报认为，OpenAI新推出的模型API全部支持结构化输出，提高AI输出可靠性，简化开发流程，从而使得开发者可以精确控制AI模型的输出格式，确保数据的准确性和一致性。国内厂商推动多模态大模型开源，或将加速AI技术的创新和发展。

事件描述

OpenAI新推出的模型API全部支持结构化输出，JSON Schema匹配率高达100％，从而使得开发者可以精确控制AI模型的输出格式，确保数据的准确性和一致性。国内厂商推动多模态大模型开源，智谱CogVideoX-2B、面壁智能MiniCPM-V2.6、阿里Qwen2-Audio相继开源，或将加速AI技术的创新和发展。

事件评论

结构化输出提高AI输出可靠性，简化开发流程。1）提升输出准确性，使用性价比凸显。性能方面，开发者可通过定义JSON Schema模式，实现对AI输出的精确控制，解决以往AI输出格式不稳定的问题。带有结构化输出的新模型gpt-4o-2024-08-06对复杂的JSON Schema的跟踪评估中，评分高达100%，显著优于旧版模型。此外结构化输出功能兼容多种API，并支持视觉输入，拓宽AI技术的应用范围。成本方面，最新的gpt-4o-2024-08-06模型与此前的gpt-4o-2024-05-13相比，可在输入上节省50%（2.5美元/100万输入tokens）、在输出上节省33%（10美元/100万输出tokens）。2）降低技术门槛，提供个性化智能体验。结构化输出功能的应用范围广泛，从动态生成用户界面、分离最终答案与推理过程，到从非结构化数据中提取结构化数据等，均能够提供更加精准、高效的支持。例如在.NET开发中，开发者可利用该功能生成动态用户界面，根据用户意图创建代码或UI；或在会议记录中提取待办事项、截止日期和负责人等。结构化输出功能简化了AI应用的开发流程，使开发者能够更专注于创新和应用逻辑的构建。

开源模式持续发展，推进技术普及与应用创新。1）智谱开源其与“清影”同源的视频生成模型CogVideoX，消费级显卡即可运行。目前开源的版本CogVideoX-2B能够生成长度为6秒、每秒8帧、分辨率为720*480的视频。同时模型在FP-16精度下推理需要仅需18GB显存，微调仅需40GB显存。因此单张4090显卡即可进行推理，而单张A6000显卡即可完成微调。2）面壁智能上线开源模型MiniCPM-V2.6，引领端侧多模态。模型参数仅8B，在端侧实现实时视频理解、多图联合理解、多图ICL视觉类比学习、多图OCR等功能。模型能力方面，MiniCPM-V2.6在端侧实现单图、多图、视频理解等多模态核心能力全面对标GPT-4V。3）阿里开源最新语音模型Qwen2-Audio，性能大幅优化。功能方面，Qwen2-Audio支持语音聊天和音频分析两种模式，能够提供更自然的语音交互体验和深入的音频分析能力；模型还引入了监督式微调（SFT）和直接偏好优化（DPO）两种方法，能够通过高质量的微调数据与人类意图对齐，并通过人类标注的响应数据来优化模型，从而使其输出更符合人类的期望和偏好。同时Qwen2-Audio支持中文、粤语、法语、英语、日语等主流语言和方言，或将有助于开发翻译、情感分析等应用。

AI技术的进步提升了输出的准确性和开发效率，开源模式的推广加速了技术的普及和创新应用的涌现。长江证券认为AI技术及应用领域持续突破，建议持续关注AI在广告、电商、影视、游戏和教育等各领域的商业化落地。

风险提示

1、AI技术发展不及预期风险；

2、内容监管风险。

智通声明：本内容为作者独立观点，不代表智通财经立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。更多最新最全港美股资讯，请点击下载智通财经App