智通财经APP获悉,国金证券发布研究报告称,AI已在金融、医疗、交通、安防等多个垂直场景深度落地,且应用场景拓展势能强劲,伴生数据海量增长。据信通院,自OpenAI于2020年推出GPT-3以来,超大预训练模型参数数量、训练数据规模按照300倍/年的趋势增长,客观推动高质量数据需求指数级扩张。AI大模型催生高要求和新需求,专业化数据集及AI训练师需求利好海天瑞声(688787.SH)等优质专业数据解决方案提供商。
▍国金证券主要观点如下:
AI基础数据服务商脱胎于专业数据采标分工需求。
国内AI基础数据服务产业主要包括上游-数据产生及产能资源、中游-训练数据生产、下游-AI算法研发三大产业环节。数据工程是AI工程基础环节,目前正处于市场格局渐趋清晰,新老技术迭代、下游需求加速释放的关键节点。
AI快速落地叠加数据量指数级跃升,2025年国内百亿规模可期。
场景侧,AI已在金融、医疗、交通、安防等多个垂直场景深度落地,且应用场景拓展势能强劲,伴生数据海量增长;
产品侧,据信通院,自OpenAI于2020年推出GPT-3以来,超大预训练模型参数数量、训练数据规模按照300倍/年的趋势增长,客观推动高质量数据需求指数级扩张。
据艾瑞咨询,2025年我国AI基础数据服务市场或达101亿元,相较2022年翻倍。
AI大模型催生高要求和新需求,专业化数据集及AI训练师需求利好海天瑞声等优质专业数据解决方案提供商。
AI大模型时代无监督/半监督训练重回主流,“基础模型+微调”成为AI开发新范式,RLHF微调技术催生两大新兴需求。
一是预训练阶段催生AI厂商对标注完善、清洗完备的各类专业化场景数据集的需求;二是交互奖励阶段催生AI厂商对于具备专业事实判断与规范价值判断的人工智能训练师的需求。
目前两类新兴需求尚未得到充分有效的市场供给。伴随超大规模预训练模型推动训练数据指数级跃升,市场蓝海亟待填补。
自动驾驶训练数据需求方兴未艾,海天瑞声发力布局。
自动驾驶约占我国AI基础数据服务市场规模的35%,系第一大下游场景,2025年市场规模或达25亿元。自动驾驶领域的业务类型可分为车载摄像头采集的2D图像数据标注与激光雷达采集的3D点云数据标注。目前业内客户对于全栈式闭环数据解决方案需求较高。
国内市场集中度趋势性收敛,海天瑞声具备领先优势。
伴随需求侧AI垂直场景及专业化需求凸显,数据需求量提升但数据采标业务门槛提高;供给端国内数据安全标准及相关资质要求提升,相关解决能力向头部厂商聚集。
以海天瑞声、Appen为代表的品牌数据服务商未来将替代中小型供应商成为市场主要供应力量。据IDC,2021年海天瑞声在国内AI基础数据服务行业市占率高达12.9%,位居第一。Appen在覆盖区域、语种/方言覆盖能力等方面更具优势。
海外对标:Appen,全球AI基础数据服务龙头。
公司近五年营收CAGR达27.2%,主营业务包括数据采集、数据预处理与模型评价三大类,业务类型齐全。主要客户包括Google、Amazon、Microsoft等知名IT巨头,客户质量较高。全球范围看,Appen位居全球AI基础数据服务行业收入体量首位,员工量能及标注技术均领先同业。
他山之石可以攻玉,对于国内厂商而言,积极卡位全球AI头部客户将有助获得大模型预训练的业务红利;持续拓宽业务矩阵,开辟模型评价模块主动挖掘客户数据需求将有助于纵向做深客户价值;夯实数据采标技术,紧跟行业趋势发展包括机器标注在内的先进数据采标技术将有助于筑牢自身业务护城河。