社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

中信建投 | 海外金融垂类模型研究笔记——金融AIGC前瞻系列一

中信建投证券研究 • 1 年前 • 400 次点击  



重要提示:通过本订阅号发布的观点和信息仅供中信建投证券股份有限公司(下称“中信建投”)客户中符合《证券期货投资者适当性管理办法》规定的机构类专业投资者参考。因本订阅号暂时无法设置访问限制,若您并非中信建投客户中的机构类专业投资者,为控制投资风险,请您请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。对由此给您造成的不便表示诚挚歉意,感谢您的理解与配合!

|赵然 吴马涵旭

对于国内金融AI应用类公司而言,当前面临ALPHA与BETA共振,一方面伴随通用大模型不断加强与垂直行业的案例合作,大模型在金融领域的训练能力不断提升,另一方面金融垂类大模型自身的研发也在持续进行,多类机构纷纷布局,产业趋势渐成,预计未来海外有望推出金融+AIGC爆款产品并逐步呈现商业化价值,推动国内金融垂类大模型应用迎来重要催化。

ALPHA & BETA共振。对于国内金融AI应用类公司而言,当前面临ALPHA与BETA共振。1)BETA:海外通用大模型研发能力不断提升,金融机构大模型商用加速,技术革新催动国内诸多机构也纷纷深度布局,产业趋势渐成,国内外爆款应用产品有望逐步呈现;2)ALPHA:在金融业务场景中,因其用户信息时效性、监管对语句合规性、机构对内容专业性的要求更为复杂多样,使得垂类大模型的不可替代性高于其他诸多场景,且尽管金融机构对于降本增效的数字化转型需求不断增加,但是金融行业中同时具备模型、数据、算力三要素能力的公司少之又少,因此对于少数深度布局的领先机构而言,ALPHA有望凸显。

海外金融垂类大模型的研发进展快于国内,三类机构纷纷布局,细分领域开发者众多,大模型质量不断提升。1)华尔街金融机构,以摩根大通等金融集团为代表,其优势是投入资金充足、金融行业理解力强带来高质量的标注能力,尚未见有开源模型公布;2)以Bloomberg为代表的资讯公司,基于其IT能力和海量数据库的积累也具有核心优势;3)推出FinChat/FinGPT/BondGPT等代表性产品的独立研发团队和中小企业,创新动能较强,正加速推出开源模型。

国外厂商大模型产品的商用化加速,金融机构宣布拥抱技术革新,科技公司已实现用户收费,目前应用方向以对内提升员工效率和对外提供智能投研服务为主。摩根士丹利、苏黎世保险、苏黎世保险、日本大和证券、MSCI等金融巨擘已公开宣布AIGC产品的最新应用,独立科技公司推出的Finchat等应用已经在C端实现初步商业化,预计未来有更多用户数据和订阅情况将逐步发布,引起国内金融行业广泛跟进,催动行业加码发展。

海外金融模型研发/商用加速,ALPHA & BETA共振可期
ALPHA & BETA共振。对于国内金融AI应用类公司而言,当前面临ALPHA与BETA共振。1)BETA:海外通用大模型研发能力不断提升,金融机构大模型商用加速,技术革新催动国内诸多机构也纷纷深度布局,产业趋势渐成,国内外爆款应用产品有望逐步呈现;2)ALPHA:在金融业务场景中,因其用户信息时效性、监管对语句合规性、机构对内容专业性的要求更为复杂多样,使得垂类大模型的不可替代性高于其他诸多场景,且尽管金融机构对于降本增效的数字化转型需求不断增加,但是金融行业中同时具备模型、数据、算力三要素能力的公司少之又少,因此对于少数深度布局的领先机构而言,ALPHA有望凸显。
海外金融垂类大模型的研发进展快于国内,三类机构纷纷布局,金融垂类模型开发者遍地开花:1)华尔街金融机构,以摩根大通等金融集团为代表,其优势是投入资金充足、金融行业理解力强带来高质量的标注能力,尚未见有开源模型公布;2)以Bloomberg为代表的资讯公司,基于其IT能力和海量数据库的积累也具有核心优势;3)推出FinChat/FinGPT/BondGPT等代表性产品的独立研发团队和中小企业,创新动能较强,正加速推出开源模型。
国外厂商金融大模型产品的商用化也在加速,催动国内相关企业加码布局,期待爆款产品引领风潮。大量金融机构在对内和对客服务上,已经初步实现了大模型产品的商业落地;Bloomberg的GPT在专用任务上表现尚可;stratosphere公司推出的Finchat已经实现C端收费,运行效果良好;商用化进程在海外金融行业加速进行,预计未来有更多用户数据和订阅情况将逐步发布,引起国内金融行业广泛跟进,催动行业加码发展。
从微调到预训练,海外金融模型研发格局分化
海外金融科技公司开发金融垂类大模型主要有两条技术路线:一是直接预训练金融垂类大模型,二是对通用大模型做金融数据微调。预训练是预先训练模型的过程,微调是将预训练过后的模型作用于自己的专业数据集;从海外实践情况来看,目前国外成功的预训练金融垂类模型主要是BloombergGPT,其他公司为节省成本,采用通用大模型+特定领域数据微调方式的较多,对于国内多数公司而言,在算力资源的限制下,后者的可行性更高,但前者综合效果更好。
预训练垂类大模型:预训练是指在大规模的数据集上训练一个更加通用的基础模型,目的是捕捉底层语言的统计规律和语义信息。Bloomberg采用的的是自主构建数据集和语料库来预训练金融垂类大模型的方式,其优点是文本生成能力更强,但缺点是训练成本较高。
通用大模型+微调:微调是在特定任务的数据中,将预训练的模型进行进一步训练,而且需要根据该任务的目标函数进行优化,其中涉及到对行业的Knowhow,更高质量的标签能够使模型充分理解特定场景的上下文语义和特定领域专业知识。海外大部分中小研发团队,都是在既有通用大模型基础上,用专业领域数据微调模型来适应任务的方式,从海外已经发布产品的情况来看,对话效果不错,仅做微调的训练成本非常低。但缺点是金融文本的生成能力不足,相关产品提供更多的是数据搜集、查询、制作展示的作用。
FinChat
开发团队:FinChat是一款专门为投资者精准提供上市公司可靠数据的ChatGPT工具,由Stratosphere公司所开发推出,该公司的创始人兼CEO是算法工程师出身的BradenDennis,该公司设计了一个界面简洁的交互网站,投资者可快速查询所需财务和投资信息,包括结构化和非结构化信息
功能简介:智能数据查询和筛选,智能图表生成及其可视化;股票投资价值简评
技术路线:根据公司官网的表述和数据集的容量,推测可能是基于GPT-4的微调版本;根据Finchat官网发布的更新日志,目前Finchat已经从v1.1(2023-04-20)更新至v1.4.4(2023-06-11)。
底层数据:750多家美股上市公司的股票价格、股东信息、华尔街分析师预测;相关财务报表、财务比率、分业务收入和关键经营指标,有关分析师预测,股票价格;美国宏观经济数据;ETF基金持仓情况等;
数据源:上市公司披露的定期财务报告、季度业绩电话会纪要和Stratosphere.io数据库中的财务指标;上市公司披露的数据会在最多2天内更新入库;
语料库:股票资产管理规模超1亿美元机构投资者的持仓报告、经典投资著作、对冲基金定期报告精选等。
商业化:个人用户包月20美元、包年200美元,企业用户通过API方式提供嵌入式解决方案,另外定价。免费版本每天可提问10次,付费版本50次,付费版本拥有更全面的访问权限,包括4万家公司的股票筛选器和业绩日历。
语言:支持多语言问答(含中英文),仅支持英文图表可视化生成。
BondGPT
基本介绍:6月7日,金融科技公司Broadridge子公司LTX宣布,通过GPT-4打造了BondGPT,主要用于帮助客户回答各种与债券相关的问题,增强10.3万亿美元的美国公司债券市场的流动和价格发现。该技术基于OpenAI的GPT-4,可在其平台上帮助回答与债券有关的问题,并识别可交易的企业债券。目前,BondGPT已经投入使用。Broadridge创立于2007年,专为银行、券商、资产管理公司等金融机构提供技术解决方案。Broadridge总部位于美国纽约,在中国香港、伦敦、东京、新加坡、多伦多等21个国家/地区开展业务,员工数量超过1.4万人,年收入超过50亿美元。LTX是它旗下的机构固定收益产品经纪商和交易商
技术路线:根据公司官网的表述和数据集的容量,可能是基于GPT-4的债券金融领域预训练模型。
为了增强ChatGPT的输出准确性和满足金融业务场景需求,LTX将自己整合的LiquidityCloud中的实时债券数据和海量金融数据,输入到GPT-4大语言模型中,帮助金融机构、对冲基金等简化债券投资流程以及提供投资组合建议。BondGPT会回答符合需求的公司名字、利率、价格、发布日期、到期日期、债券评级等信息。同时支持连续、深度对同一个问题进行发问,使用方法与ChatGPT基本相似;除了提供问答服务外,BondGPT还可以根据特定数据筛选输出可视化图表。同样,该功能也支持连续提问。
BloombergGPT
2023年3月30日,BloombergGPT正式官宣,一方面构建具备3630亿个标签、迄今为止最大的特定领域训练数据集,另一方面训练BLOOM风格、拥有500亿参数的金融领域的大型语言模型(LLM);
技术路线:自构建数据集预训练的金融行业大语言模型。是一款基于Pytorch训练的纯解码器(decoder-only)因果语言模型。1)数据:自构建数据集FINPILE和开源数据集,二者各占一半,前者主要,覆盖英文金融领域的新闻、办公档案、新闻稿、网站爬取的金融文档、社交媒体文档;2)分词采用的是Unigram tokenizer;3)模型架构是基于BLOOM的decoder-only(纯解码器)。
在位置编码、decoder模块内部结构等吸收了学术界、工业界的最新改进,模型训练重点使用了彭博自己的金融数据,同时使用了开源的数据以获取更广泛、通用的知识。模型没有使用多模态训练方式,数据以英文数据为主,没有采用chatgpt类似的instruct tuning、RLHF等,本质上是一个大型生成式预训练语言模型。
FinGPT
开发团队:FinGPT是由AI4Finance开源社区成员联合开发推出的开源金融大型语言模型,6月13日该团队将模型和介绍发布于GitHub,其中提到一些技术思路以及分别提供了经中国和美国股票数据训练后的Demo,但经过训练的完整模型尚未正式发布。AI4Finance设立在美国纽约的一个共享金融AI工具的考员社区,由包括哥伦比亚大学、纽约大学、普林斯顿大学、普渡大学、西北大学等成员共同运营的一个联盟。
技术路线:基于开源LLM 进行微调;在微调方法上采用LoRA、QLoRA和RLSP等微调技术来降低训练成本和允许用户定制个性化模型。
1)LoRA是微软开发的大模型轻量级微调技术,基本原理是在冻结原模型参数的情况下,通过往模型中加入额外网络层,每次训练新增网络层较少的参数,使得微调成本显著下降,AI4Finance团队在其中使用金融市场的固有标注能力生成输出标签,例如反映公司事件的股价波动就是一种标注,该团队成功将每次训练参数量从61.7亿减少到367万个,预计每次训练成本不到300美元。
2)RLSP:团队用RLSP替代RLHF,通过将新闻情绪与相关股票的后续表现相结合,用股票价格提供的固有量化、客观的指标,形成实时的反馈机制,从而改进对金融文本的理解以及对金融事件的分析能力。
数据源:来自新闻媒体、财经网站的金融新闻和市场动态;来自社交媒体的公众情绪及话题对金融事件的即时反馈;法定公布的上市公司信息披露数据;各类专业论坛和网站上提供的分析师研究观点、市场预测及投资建议;包含复杂金融分析的学术数据库等。
预设应用方向:智能投顾:提供个性化的金融建议,减少常规面对面咨询的需求;量化交易:生成交易信号,支持明智的交易决策;投资组合优化:利用多种经济指标和投资者个人资料,构建最优投资组合;金融情绪分析:评估不同金融平台上的情绪,为深入的投资指导提供帮助;风险管理:通过分析各种风险因素,制定有效的风险策略;金融欺诈检测:识别潜在的欺诈交易模式,增强金融安全性;信用评分:通过金融数据预测信用价值,为贷款决策提供帮助;破产预测:根据财务和市场数据,预测公司潜在的破产或倒闭情况;并购预测:通过分析财务数据和公司概况,预测潜在的并购活动,帮助投资者预测市场动向;ESG(环境、社会、治理)评分:通过分析公共报告和新闻文章,评估公司的ESG得分;低代码开发:通过用户友好的界面促进软件开发,减少对传统编程的依赖;金融教育:作为人工智能导师,简化复杂的金融概念,提升金融素养水平。
从降本增效到智能投研,海外金融机构紧跟产业趋势
海外金融机构金融大模型进展加速,目前主要用于对内赋能提升管理效能、对外提供智能投研服务两个方向;广义的对内赋能,主要是满足基于员工对公司信息库的查询和搜集需求,以及对外展业过程涉及的客户关系管理需求,而广义的智能投研,则包括提升金融数据分析能力、低代码的量化投资策略开发、智能客服等,海外金融机构的AI应用经历了从布局自身到布局客户的变化,未来智能投研、投顾领域涉及的交互方式和内容生成都会发生质变。
摩根士丹利
摩根士丹利在财富管理部门部署GPT-4,面向内部赋能理财顾问:3月14日,公司对外宣布,公司正在与OpenAI合作,推出一款基于GPT-4技术的聊天机器人,赋能该集团的财富管理业务,成为OpenAI发布的重点使用案例。摩根士丹利的应用目前主要是在财富管理部门,部署GPT-4的主要场景是面向内部服务的聊天机器人,在财富管理内容中执行全面搜索,例如其金融顾问团队可以高效便捷的获取所有存储在公司内容库里的海量信息,包括数十万页涵盖投资策略、市场研究和评论以及分析师见解的知识和洞见。
摩根士丹利主导该项目的分析、数据与创新主管McMillan表示,目前已经使用GPT-4技术将所有智库内容转化为更易于使用和操作格式;该行此前一直在用300名顾问测试这款工具,并计划在未来几个月广泛推广。
摩根大通
摩根大通自主研发IndexGPT,可面向客户提供投资建议:5月16日,摩根大通为名为IndexGPT的产品申请了商标注册,公司发布的文件显示,IndexGPT将利用“使用人工智能的云计算软件”来“分析和选择适合客户需求的证券”。由此可见,该产品意图面向客户,为投资者提供具体的投资建议。技术上来看,IndexGPT准备采用自研方式,目前集团已经雇佣了1500名数据科学家和机器学习算法工程师,正在测试多个使用案例。
TwoSigma
对冲基金TwoSigma利用ChatGPT分析财务报告,以识别潜在的投资机会:TwoSigma是一家总部位于美国的量化对冲基金公司,管理规模超过500亿美元,公司用ChatGPT分析财务报表和新闻内容,以识别潜在的投资机会和风险,通过利用ChatGPT的自然语言处理和大规模语料库,TwoSigma可以自动化的分析大量的数据,并从中提取有用的信息,以更好的了解公司业绩和市场趋势,并作出更明智的投资决策。
苏黎世保险
保险公司正在使用ChatGPT进行理赔和数据挖掘。多家保险公司正在测试和推进使用ChatGPT和AIGC技术来完成索赔、建模、客户服务、内部查询等任务。其中,苏黎世保险集团已在测试如何在索赔和建模等领域运用ChatGPT,瑞士保险公司Helvetia推出了聊天机器人,可以回答用户有关保险、养老金和房屋所有权的问题。
大和证券
日本证券行业已经广泛将ChatGPT运用到各种业务之中。4月18日,日本第二大券商大和证券(Daiwa Securities)在官网发布了一份声明称,从4月中旬开始其国内9000名员工将使用ChatGPT技术,主要用于内部员工缩减信息搜集和制作成本;三菱UFJ金融集团将于今年夏天开始使用AIGC技术来完成撰写批准请求和回答内部查询等任务;三井住友金融集团也宣布开始试用与微软日本合作开发的人工智能聊天机器人,预计秋季可以在公司内部正式应用。

经济的增长和复苏需要投资、消费、出口等多方面共同驱动,国内居民收入增长受制于经济增速的提升,消费需求的复苏存在低于预期的可能性,而投资需求与政府的财政、货币政策高度相关,在稳健的政策导向下,我们的投资和地产行业很难向过去一样继续成为经济增长的核心驱动,最后,出口需求来源于海外市场,当前海内外经济环境不明朗,地缘政治情况复杂,因此经济的复苏存在较多挑战和不确定性,这些因素都会对同花顺这家公司的经营业绩构成客观环境风险。

公司专业从事互联网金融信息服务,市场需求与证券市场的景气度紧密相关。国内经济增速的减缓、国际经济发展形势的不明朗等宏观经济因素均有可能导致证券市场不景气。若证券市场出现中长期低迷,市场交投不活跃,投资者对互联网金融信息服务的需求下降,可能会导致公司产品销售收入下滑,从而可能使公司整体经营业绩下滑。

尽管互联网金融信息服务业目前发展态势良好,但从长期来看,行业仍然处于发展初期。当前,行业市场份额集中度不高,内部竞争激烈,竞争趋于复杂和严峻。激烈竞争的市场环境可能会带来产品价格下滑、服务质量要求提高、市场份额难以保持等风险。为了应对激烈的竞争,各家企业需要重视技术创新和服务创新,加强产品创新和服务创新,以提高服务质量和品牌价值。为此,企业可以采取技术改进、技术升级、服务创新、定制化服务等措施,提高产品和服务质量,满足客户的需求,从而赢得更多的市场份额,而这些可能会使得公司的研发费用持续居高。

目前,我国对证券信息经营实行许可经营制。虽然公司当前经营中所使用的证券行情信息均已获得了上证所信息网络有限公司、深圳证券信息有限公司、香港交易所信息公司等机构的授权,但公司如果没有按协议约定及时提出展期申请或换发许可证的申请,或上述机构对证券交易专有信息的有限经营许可政策发生变化,如增加或减少专有信息的许可品种、增加或减少被授权的金融信息服务商、改变信息服务商有关资质要求等,则有可能影响公司现有产品的运营。

公司现有的金融信息服务必须基于互联网提供,因此必须确保相关计算机系统和数据的安全。然而,设备故障、软件漏洞、网络攻击以及自然灾害等因素客观存在。上述风险一旦发生,客户将无法及时享受公司的增值服务,严重时可能造成公司业务中断,从而影响公司的声誉和经营业绩,甚至引起法律诉讼。

公司主要业务为结合信息技术和金融理论对基础金融信息进行采集、加工、整合,通过互联网技术为资本市场的各方参与者提供金融信息服务。如果未对产品设计、开发、运营过程中产生的知识产权采取妥善的保护措施,可能会引起重大的知识产权纠纷,对公司经营活动产生不利的影响。

随着互联网金融信息服务行业的不断发展,监管机构出台了一系列政策和法律法规,以确保行业发展的规范性。这些政策和法律法规的实施,对于维护市场秩序、保护投资者权益、防范金融风险和保护消费者权益具有极其重要的意义。然而,这也可能会给行业内的创新开发业务带来一定影响,要求企业在落实相关法律法规的同时,也要确保市场秩序能够稳定发展。行业发展必定应当突出安全性,强化信息安全保障机制,加强企业信息安全管理,防范信息安全风险,以确保用户信息的安全性和完整性。同时,企业还应当提高管理水平,建立健全风险监控机制,加强风险管理,确保行业发展的有序进行。

赵然:中信建投非银金融与前瞻研究首席分析师,中国科学技术大学统计与金融系硕士。曾任中信建投金融工程分析师,2018年Wind金牌分析师金融工程第2名团队成员,2020年,2021年Wind金融分析师非银金融第1名,2020年,2021年新浪金麒麟非银金融新锐分析师第1名。

吴马涵旭:复旦大学硕士,资深分析师,主要覆盖证券业/监管政策/金融科技(支付/信贷/理财)/AIGC+金融等。


证券研究报告名称:海外金融垂类模型研究笔记——金融AIGC前瞻系列一

对外发布时间:2023年6月20日 

报告发布机构:中信建投证券股份有限公司 

本报告分析师:

赵然 SAC 编号:S1440518100009

SFC 编号:BQQ828

吴马涵旭 SAC 编号:S1440522070001



近期热门视频

更多精彩视频,尽在中信建投证券研究视频号,欢迎关注~

免责声明

本订阅号(微信号:中信建投证券研究)为中信建投证券股份有限公司(下称“中信建投”)研究发展部依法设立、独立运营的唯一官方订阅号。

本订阅号所载内容仅面向符合《证券期货投资者适当性管理办法》规定的机构类专业投资者。中信建投不因任何订阅或接收本订阅号内容的行为而将订阅人视为中信建投的客户。

本订阅号不是中信建投研究报告的发布平台,所载内容均来自于中信建投已正式发布的研究报告或对报告进行的跟踪与解读,订阅者若使用所载资料,有可能会因缺乏对完整报告的了解而对其中关键假设、评级、目标价等内容产生误解。提请订阅者参阅中信建投已发布的完整证券研究报告,仔细阅读其所附各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。

中信建投对本订阅号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。本订阅号中资料、意见等仅代表来源证券研究报告发布当日的判断,相关研究观点可依据中信建投后续发布的证券研究报告在不发布通知的情形下作出更改。中信建投的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本订阅号中资料意见不一致的市场评论和/或观点。

本订阅号发布的内容并非投资决策服务,在任何情形下都不构成对接收本订阅号内容受众的任何投资建议。订阅者应当充分了解各类投资风险,根据自身情况自主做出投资决策并自行承担投资风险。订阅者根据本订阅号内容做出的任何决策与中信建投或相关作者无关。

本订阅号发布的内容仅为中信建投所有。未经中信建投事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本订阅号发布的全部或部分内容,亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本订阅号发布的全部或部分内容。版权所有,违者必究。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/156501
 
400 次点击