随着世界各地的科技公司竞相创建类似ChatGPT的生成式人工智能服务,构建它们所需的“基础原材料”——数据,突然间变得前所未有地抢手。
智通财经APP了解到,富达投资(Fidelity Investments)就是这一趋势的最新例子:这家全球财富管理巨头的首席信息官Mihir Shah近日在接受媒体采访时表示,科技初创企业和一些企业集团都在向这家财富管理巨头示好,希望获得其金融服务数据库。
对于那些寻求为金融服务行业构建生成式人工智能系统的科技公司来说,富达数十年的线上交易记录、客户通话记录以及面对面的客户互动报告将是一个巨大的宝藏。据悉,富达拥有大约8PB级别的数据——相当于数万亿页的印刷文本。
Mihir Shah表示,这家美国投资管理巨头管理着超过11万亿美元的资金,拥有数千万级别的客户,但该机构尚未与任何一家追求者接洽。Shah正在领导一项从富达数据中获取价值的工作,他表示,该机构已经在考虑建立自己的人工智能模型,尽管还没有正式决定是否走这条路。他表示,该公司共享的任何数据都将被匿名化,并按照最佳安全级别措施去除个人信息。
ChatGPT等生成式AI提供的堪称全能的服务基于大语言模型或人工智能系统,这些模型或系统搜集和分析来自互联网和其他来源的大量数据以及文字,以最终确定如何生成听起来像人类写出的文本。随着企业纷纷寻求降低成本、更好地服务客户的方法,这项技术在全球范围内的各行各业引发了兴奋情绪——从摩根大通到摩根士丹利等华尔街大型商业银行都走在了AI科技前列,纷纷将生成式AI用于辅助业务。
ChatGPT的创造者OpenAI、谷歌母公司Alphabet Inc.和Meta Platforms Inc.都是该领域的技术领导者,其中OpenAI得到了微软(Microsoft Corp.)的支持。他们大多使用几乎相同的公开数据来训练他们的AI系统,最终以类似人类的方式理解文本,以及生成人类通用的文本或代码。
专属于金融服务行业的LLM模型离问世不远了
但是,像富达所拥有的超大容量专项数据将使他们的人工智能服务在竞争中脱颖而出,Shah表示,他29年前开始在富达工作,并监督其网站的建设,这是一家大型金融服务公司的第一个网站。他现在正在指导富达全公司范围内的云数据仓库的全面创建,以更好地利用这些数据。
Shah通过视频表示:“区别在于将第一方数据与公共数据结合起来,为金融服务行业建立一个垂直的大语言模型。”“我们已经看到,在科学研究和医疗保健行业出现了垂直的大语言模型。”
一般来说,一个大语言模型的价值很大程度上取决于它所训练的数据的数量和质量。人工智能系统需要大量的文本、图像、声音和其他信息来学习人类的模式和人类世界的关系,从而可以基于它们生成内容。
开发大语言模型的过程是比较复杂且技术极为密集。通常意义上的常用步骤包括:数据收集、数据预处理、模型选择、训练模型、微调模型、测试模型以及部署模型。总之,大语言模型的开发需要开发者具备一定的机器学习/深度学习、自然语言处理等相关技能和经验。同时,需要有大量的数据和计算资源作为支撑,才能开发出高质量、高效的模型。
Shah表示,富达的数据被认为非常有吸引力,以至于一些追求者提议为该公司免费建立一个人工智能系统,以换取合作。他表示,富达的很多数据都是相对最新的,是根据最新的合规要求在过去7年里所保存下来。据悉,富达拥有超过4,200万客户,并且为数万家企业管理退休计划和其他福利项目。
Shah还表示,在决定如何部署数据时,富达需要考虑到人工智能系统面临的一些挑战,如可靠性、信息偏见以及如何处理个人身份信息。他表示,与此同时,该公司正在采取措施加强其安全基础设施,并进一步限制具体哪些名单可以访问这些数据。
Shah还强调:“我们对这些新工具非常谨慎。”“对于生成式人工智能,你不能完全相信其结果。”
迈入AI时代,数据就是“金山银山”
随着OpenAI推出的ChatGPT和谷歌推出的Bard等以消费者应用为中心的生成式人工智能(AI)工具接连问世,全球开始迈入AI时代,现代化的人工智能程序开始使用大语言模型(LLM模型),在海量的数据基础上训练人工智能系统,其中的数据内容包括富达庞大的金融数据库,推特和Reddit等网站上用户生成的帖子等等。因此,如今掌握大量的数据资源,意味着掌握开发LLM模型的“原材料”。
随着全球开始迈入AI时代,推特和Reddit显然已嗅到数据库带来的巨大商机,已经开始收费,只有付费的客户才有资格访问他们的数据内容。
在6月初,据媒体报道,有着“美版贴吧”之称的社交媒体和新闻聚合网站Reddit要求开发者支付数千美元才能直接访问该公司的数据和内容,此举可能有助于该公司构建更多元化的营收来源。根据一款名为Apollo的流行第三方应用程序的开发者披露的帖子,该公司要求开发者每5000万次请求支付1.2万美元。
特斯拉CEO埃隆·马斯克私有化的推特于在2月份结束了免费的API系统,并引入了付费使用系统。推特在3月宣布对5000万次请求收取4.2万美元时,用户和开发者都感到愤怒。推特提供了三种套餐,其中最便宜的为:每月支付4.2万美元可以访问5000万条推文。套餐等级越高,研究人员或企业获得的推文数量就越多:每月支付12.5万美元可以获得1亿条、每个月支付21万美元可以获得2亿条;每年最高等级收费高达250万美元。