今天,万众期待的OpenAI第一届开发者大会终于来了!OpenAI的CEO Altman在分享了GPT-4的数十项新增功能和改进,并降低了平台许多服务的定价:新的GPT-4 Turbo模型,功能更强大、更便宜并支持128K上下文窗口。最为关键的是,发布了GPTs功能,能让每个用户自己制作自己「定制化的ChatGPT」,还能通过即将发布的「GPT Store」来让自己定制的GPT为自己挣钱!而且,OpenAI还发布了新的「助手API」,使开发人员能够更轻松地构建自己的辅助AI应用,并可以调用模型和工具。平台还继续更新了新的多模态功能,包括视觉、图像(DALL·E 3)和文本转语音。
一上来,Altman先秀了一下GPT过去获得的成绩,包括高达1亿的周活跃用户,以及吸引了200万开发者根据API进行开发。紧接着Altman推出了GPT-4的升级版——GPT-4 Turbo,新的GPT-4 Turbo 模型功能更强大、更便宜并支持高达128K的上下文窗口。上下文窗口对比前代提升了16倍,而128K相当于整整300页书!新的API赋予了开发者更多的自由度,包括引入了JSON:通过函数调用,开发者可以向模型描述应用或外部API的函数,并让模型智能地选择输出包含参数的JSON对象来调用这些函数。
包括能够在一条消息中调用多个函数:用户可以发送一条消息请求多个操作,例如「打开车窗并关闭空调」,这在以前需要与模型进行多次往返。GPT-4 Turbo提高了函数调用的准确性,而且在需要仔细遵循指令的任务上比以前的模型表现更好。新的模型自然也包括了更新的训练数据,GPT-4 Turbo的知识库更新到了今年4月份,相比于前代提升了一年半,不会再像以前的chatGPT一样,对2022年非常敏感并拒绝回答。接下来展示的是GPT-4 Turbo在多模态方面的新能力。GPT-4 Turbo可以接受图像作为聊天完成API中的输入,从而实现生成字幕、详细分析真实世界图像和阅读带有数字的文档等用例。例如,BeMyEyes使用这项技术来帮助盲人或视力低下的人完成日常任务,例如识别产品或浏览商店。开发人员可以通过在API中使用gpt-4-vision-preview来访问此功能。OpenAI计划为主要的GPT-4 Turbo模型推出视觉支持,作为其稳定版本的一部分。而定价取决于输入图像大小。例如,将1080×1080像素的图像传递给GPT-4 Turbo的成本为0.00765美元。开发人员可以集成DALL·E 3,通过Images API将DALL·E 3指定为模型,直接将其导入到应用和产品中。Snap、可口可乐和Shutterstock等公司都使用了DALL·E 3以编程方式为其客户和活动生成图像和设计。与之前版本的DALL·E相比,新的API包含内置审核功能,可帮助开发人员保护其应用程序免遭滥用。OpenAI提供不同的格式和质量选项,每张生成的图像起价为0.04美元。另外,开发人员可以通过文本转语音API从文本生成人类质量的语音。Altman也在现场展示了一段API生成的非常自然且优美的声音。新的文本转语音API提供六种预设声音可供选择,同时推出了针对实时用例,以及针对质量进行了优化的版本。在语音识别方面,现场发布了开源的Whisper large-v3,提高了跨语言的性能。OpenAI将在之后的API中支持Whisper v3。OpenAI为GPT-4微调创建了一个实验性访问程序。与GPT-3.5相比,GPT-4微调需要更多的工作才能实现对基本模型的有意义的改进。
Altman表示将允许开发者对16K版本的GPT-3.5进行微调。而对于有更高需求的组织,OpenAI还推出了一个定制模型计划,让选定的组织有机会与专门的OpenAI研究人员团队合作,针对他们的特定领域训练定制GPT-4。包括修改模型训练过程的每个步骤,从执行额外的特定领域预训练,到运行为特定领域量身定制的自定义后训练过程。组织将拥有对其自定义模型的独占访问权限。根据OpenAI现有的企业隐私政策,自定义模型不会提供给其他客户或与其他客户共享,也不会用于训练其他模型。此外,提供给OpenAI用于训练自定义模型的专有数据不会在任何其他上下文中重复使用。为了帮助用户扩展应用程序,OpenAI将所有付费GPT-4客户的每分钟token数量限制增加了一倍。OpenAI通过系统中内置的版权保护措施来保护客户——Copyright Shield。当用户面临有关版权侵权的法律索赔时,OpenAI可以介入并保护客户,并支付由此产生的费用。GPT-4 Turbo的输入比GPT-4便宜3倍,为0.01美元,输出便宜2倍,为0.03美元。GPT-3.5 Turbo输入比之前的16K型号便宜3倍,为0.001美元,输出便宜2倍,为0.002美元。而微调后的GPT-3.5 Turbo 4K模型输入便宜4倍,为0.003美元,输出便宜2.7倍,为0.006美元。微调还支持16K上下文,价格与4K版本相同。——大大降低了开发者的成本,以至于Altman在现场表示「团队为此付出了很大的努力」。除了GPT-4 Turbo,OpenAI还发布了新版本的GPT-3.5 Turbo,默认支持 16K上下文窗口。新的GPT-3.5 Turbo支持改进的指令跟踪、JSON模式和并行函数调用。开发人员可以通过在API中调用gpt-3.5-turbo-1106来访问此新模型。另外,稍稍令人惊讶的是,发布会现场还邀请了微软的CEO纳德拉,现场表现出其乐融融的合作关系。
纳德拉表示将继续增进基础设施方面的支持,通过GitHub Copilot等产品赋能开发者,并高度重视安全性问题。
发布会之所以叫「OpenAI开发者大会」,最核心的原因就是他们发布的GPTs。通俗来说,GPTs就是OpenAI自己做了一个专门给ChatGPT套壳的工具,让所有人都能用这个套壳工具,「开发」自己专属的「套壳ChatGPT」。然后月底,OpenAI就会上线自己的「APP Store」——「GPT Store」,给所有「套壳GPTs」提供一个展示并且将能力变现的平台。当OpenAI自己给ChatGPT套壳,就没有那些套壳GPT什么事情了。按照OpenAI自己在发布会上的演示,GPTs有两个官方的「钦定」发展方向:1. 让用户通过GPTs创建一个背后由GPT-4加持的智能体生态。2. 让即使「完全没有代码能力」的用户,也可以做出「定制版的GPT」。我们具体来看看OpenAI是如何展示这两个产品方向的。OpenAI Agent
大概在4个月前,OpenAI的元老成员,Andrej Karpathy曾经做过一个小范围的线下演讲,引起了不小的轰动。他鼓励更多的开发者和AI研究人员去做「智能体」相关的事情,认为AI智能体在未来会有很大的机会。4个月后,OpenAI的工作人员走上第一届OpenAI开发者大会,介绍了ChatGPT在智能体方向上的应用实例。她首先演示了,通过GPTs,自己如何把自己手机上的日程表和自动化平台Zapier链接的起来。然后这个工作人员的GPT,此时就成为了一个简易的智能体,首先识别出了日程中可能出现冲突的地方。接着,工作人员决定现在要和Sam Altman请个假,去做日程上安排的事情了。她就和自己的GPT说,帮我给Sam说一下我得走了。GPT就自动地帮她通过手机给Sam发了条信息说,她必须要出门一趟。Sam瞬间就收到了这条信息。这是第一次,OpenAI官方发布了一个自己的智能体解决方案!可能多年之后,当人们的生活,已经在AI和智能体的加持之下,发生了翻天覆地的变化。这个发布会上的场景会像我们现在不断翻看乔帮主发布iPhone的视频片段一样,反复被人提及吧。
根据OpenAI官方的说法,就像之前的插件功能一样,用户可以将自己的GPT集成到外部数据或与现实世界完成交互。例如,可以把GPT集成到自己的旅行列表数据库、连接自己的电子邮件收件箱或电子商务订单中,从而在自己的生活中发挥更大的作用。开启OpenAI的「APP Store」时代
而实现这一切功能的基础,就是一个人人可以定制化,几乎没有任何门槛的GPT开发平台。按照OpenAI的说法,不需要代码能力,每个人都能通过自然语言和GPT交互,用自己的想法和数据定制一个自己专属的GPT。然后Sam Altman在发布会上就花了3分钟,自己演示了一下制作自己的「创业导师GPT」全流程。Altman说,当年他还在Y Combinator做CEO的时候,他就特别想拥有一个自己的对外聊天机器人,帮助自己回答不同创业者提出的重复性问题。首先,他先用自然语言告诉GPT Builder自己想建立一个专门帮助创业者的聊天机器人。GPT Builder就自动生成了类似于之前「定制化指令」一样的文档,帮助这个GPT定了一个「创业导师」的人设。然后Sam Altman向GPT上传了一份自己做Y Combinator CEO时期的演讲稿,包括了大量自己和创业者沟通的文字记录。然后简单修改了一下GPT Builder生成的,建议用户提出的创业问题,再生成了一个产品图标,他的这个「创业导师GPT」就完成了。在右边的预览屏幕中,「Sam Altman定制版创业导师」就可以开始对外营业,回答创业提出的具体问题了。Altman自己提了一个问题:「初创公司初期在招人的时候,需要看重哪3个品质?」看了看回答之后,他满意地说,「不错,这些回答都是我自己在各种场合反复强调过的话。」Altman接着说,每个用户创造出来的GPT,可以只对自己可见,完成自己的认为,也可以在OpenAI的平台上对外发布。而且企业还可以定制化完全本地的GPT来满足自己业务的具体需求!而对于那些用户喜欢并且愿意付费购买的GPT,OpenAI会和它们的作者共享收益,共建生态。
而对于专业开发者来说,ChatGPT API功能也迎来了巨大的更新。OpenAI想要通过这个「助手API」(Assistant API)构建一个「API Agent」,来帮专业的开发者们更加高效地使用ChatGPT的API。这个「助手API」最核心的功能就是,能够调用模型和工具来执行「代码解释器」,「检索」,以及「函数调用」的功能。
这样就能将开发人员从以前繁琐的开发过程中进一步解放出来,把精力专注于构建AI应用的核心部分。而且助手API能够支持无限长的线程,开发人员从此可以将线程状态管理移交给OpenAI,从而完全不受上下文窗口大小的约束。发布会现场,OpenAI就演示了如何构建助手的过程,自然语言+简单勾选几个选项,就能完成。而应用程序马上就能调用这个创建好的API,瞬间得到10个巴黎旅游景点的地图标记。而让更多开发者惊喜得合不拢嘴的是,所有的API价格都下降了至少1/3,而且不再根据上下文窗口长度区分费率。专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
点击“阅读原文”,了解使用专知,查看获取100000+AI主题知识资料