智通财经APP获悉,作为A股市场“互联网+金融+AI”第一股,同花顺(300033.SZ)凭借十余年的人工智能技术积累,再度创新,推出了问财HithinkGPT大模型。此款大模型采用transformer的decoder-only架构,提供7B、13B、30B、70B和130B五种版本选择,最大允许32k文本输入,支持API接口调用、网页嵌入、共建、私有化部署等能力,并为用户提供一站式标注和评测服务。现在,问财HithinkGPT大模型的内测申请已经启动,我们真诚地邀请您成为首批内测用户,共同探索AI技术的无限可能。
一、凝练技术-成就HithinkGPT
HithinkGPT大模型汇聚了同花顺多年的技术精髓与数据优势,致力于通过AI技术提升用户和合作伙伴的使用体验,让投资变得更加简单。HithinkGPT在多个场景中有出色的表现,在金融领域中处于绝对领先的位置:
通用领域:HithinkGPT大模型在C-Eval、GSM8K、MMLU、MATH等10多个主流Benchmark测评集上的表现全面超越了主流开源模型Llama-2。
金融领域:同花顺自建了HithinkFinEval数据集,涵盖了证券从业考试、基金从业考试、会计师资格考试、CPA、CFA等17个金融行业考试。在这些考试中,问财HithinkGPT-70B大模型以平均75.9分的优异成绩通过考试,并且HithinkGPT在所有考试科目中都比开源模型更加优秀。
以上成果离不开同花顺独特的金融领域数据优势与长期以来的AI全面技术研发投入,我们针对大模型训练与推理做到了极致的优化与技术探索,包括数据覆盖、模型训练、高效推理以及智能安全:
1、金融数据的全面覆盖:同花顺利用自身过去十几年的数据积累以及市场上公开的金融数据,预训练金融语料达到万亿级tokens。此外,我们拥有一套自动化的流程,用于数据获取、清洗以及数据质量的验证,每月可新增数千亿tokens优质预训练数据以及数十万条优质微调数据,确保数据的实时性和准确性。
2、模型训练的创新优化:我们构建了科学高效的大模型训练体系,包括:数据配比实验方案、scaling law实验体系、模型架构优化、分布式训练框架优化、硬件加速技术等。使得我们的大模型训练效率提升了数倍,能以更低的训练成本高效地完成HithinkGPT大模型家族(7B、13B、30B、70B和130B)的训练。
3、AI算力的极致使用:同花顺构建了千卡异构集群,为模型训练提供支持。推理上,我们通过应用无损自适应选层剪枝、通信及底层算子优化,以及实现多数据中心负载均衡,使模型推理吞吐速度提高八倍以上。此外,我们自主研发了大模型量化算法,量化后的模型精度损失小于1%,同时部署显存需求减半,推理的吞吐量进一步提高了两倍以上。
4、智能安全的坚决守护:我们使用轻量高效的RLHF方案,将大模型对安全的认知与人类拉齐。同时,我们独创补丁式大模型热修复技术,快速应对并封堵安全漏洞,不断提高模型的安全性。我们旨在构建有用、无害、三观正确的智能伙伴,确保每一位用户都能安心使用。
二、全面升级-全能金融顾问:问财
原来就广受投资者喜爱的投顾对话机器人:同花顺问财,现基于HithinkGPT成功升级,是国内金融领域首个应用大模型技术的智能投顾产品。
大模型版本的问财涵盖A股、基金、ETF、港股、美股、债券、宏观等15个业务矩阵,包括七大投资环节的查询、分析、对比、解读、原因、预测、建议、回测等在内的50余类技能,为用户提供全面精准、稳定可控的投资决策支持。
大模型版本的问财与传统模式的问财相比,具有以下五大特色优势:全面的实时金融数据、强大的语义理解、专业的投顾建议、生动的表达形式、可控的内容生成,致力于成为用户的全能金融顾问:
1、更全面的实时数据:问财大模型可以实时获取全球数百万个实时更新的金融数据指标以及每天产生的数十万条金融相关资讯。这些数据涵盖了股票、债券、期货、外汇、商品价格、宏观经济指标、行业数据等各个方面,确保用户始终能够获取到最新、最全的信息。
2、更强大的语义理解 :问财在十多年前就已经涉足金融人机交互领域,积累了数十亿条完整、专业、高质量的结构化金融数据,其对语义理解以及用户个性化理解能力的提升具有先天优势;同时每天持续产生数千万条金融数据,结合大模型自我进化能力,使得大模型能够更准确的理解用户意图和需求。
3、更专业的投顾建议:围绕用户的投资目标,基于“用户的五大KYC标签体系、投资分析的六大维度、以及投资过程的七大步骤”,模拟了真人投顾服务逻辑,给用户最科学合理的投资建议,让投资变得更简单。
4、更生动的表达形式:同花顺问财大模型已经打破了行业常用的文本格式限制,截至目前,我们已经拥有动态折线图、动态双柱图等14种数据可视化组件以及图片生成和视频生成两种富媒体可视化工具,并支持用户自定义,覆盖了投顾建议、宏观、资讯、投教等15大核心业务领域,利用多模态技术让信息传递更高效更人性。
5、更可控的内容生成:安全性上通过内置的智能风险识别系统,能够实时监测和召回5大类31种潜在风险的提问意图,通过系统对抗性训练和鲁棒性评估,风险召回率超过99.5%,同时邀请业界知名的安全机构和专家,对产品进行了全面的安全测试和评估,获得了高度的认可!