智通财经APP获悉,3月7日,受证监会科技监管局局长姚前建议重点发展基于AIGC技术的合成数据产业消息影响,A股ChatGPT、AIGC概念午后拉升,截至发稿,中文在线(300364.SZ)涨超8%,神思电子(300479.SZ)、山水比德(300844.SZ)、视觉中国(000681.SZ)、宣亚国际(300612.SZ)、汤姆猫(300459.SZ)、浪潮信息(000977.SZ)等股拉升上涨。
证监会科技监管局局长姚前在《中国金融》杂志撰文称,建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。在强化数据要素优质供给方面,应统筹兼顾自立自强和对外开放。可考虑对Wikipedia、Reddit等特定数据源建立过滤后的境内镜像站点,供国内数据处理者使用。
有研究预测,按照目前的发展速度,到2026年ChatGPT类大模型的训练将耗尽互联网上的可用文本数据,届时将没有新的训练数据可供使用。因此,算力瓶颈之外,训练数据将成为大模型产业化的最大掣肘之一。从更深层次考虑,大模型在训练数据方面还存在各种治理问题,比如数据采集标注费时费力成本高、数据质量较难保障、数据多样化不足难以覆盖长尾和边缘案例、特定数据在获取与使用分享等方面存在隐私保护、数据偏见等问题。由此可见,人工智能产业的高质量发展离不开高质量的训练数据,训练数据的安全合规使用是大模型人工智能长期健康发展的基础。