【新智元导读】2024年,OpenAI的ChatGPT在大模型领域不断突破,推出了多项创新功能,如个性化聊天机器人商店、增强记忆功能、多模态处理能力等,在安全性、稳定性和高效性方面也持续优化,一起回顾一下吧!
而作为领跑者,ChatGPT也一直是大模型届的指南针,无论是去年发布的大模型o1-pro,Sora Turbo,还是各种小功能,比如视频模式、打断说话等,甚至是每月200美元的高额定价,OpenAI的每一场发布会都能给广大AI爱好者带来一些新震撼、新思路。
下面共同回顾一下OpenAI在2024年发布的关键更新,一起见证大模型的进化之路!
GPT商店:用户可以发布构建的个性化聊天机器人(GPTs),按类别进行搜索,如写作、生活方式和教育等。守护者工具(选举相关):OpenAI更新了政策,禁止ChatGPT、DALL-E等工具的用户和制作者使用其工具冒充候选人或地方政府,用户也不能将其用于竞选活动或游说,还不能使用这些工具阻止投票或歪曲投票过程
内联标记(Inline tagging):用户可以在聊天框中输入「@」触发GPT提及功能,系统会显示可用的GPT模型列表,用户可以在一次对话中集成和与多个AI模型交互。
回复语音朗读(手机app):增添回复内容的语音朗读功能,提升用户获取信息的便捷性。
GPT自助申诉流程:用户可以自行提交申诉GPT使用中遇到的问题。
团队计划:ChatGPT插件的测试版本停止服务。
记忆功能(sunshine)发布:可增强模型对过往对话的记忆,使交互更具连贯性,从而更好地理解用户的上下文和需求。发布全新外观(Hedgehog)
反馈功能:增加用户对GPT的评论和反馈机制,方便用户对不同GPTs给出评价和建议,促进改进。
作者验证:对GPT创建者的个人资料引入社交验证功能,提升创建者身份可信度和内容权威性。
Sora发布:能够根据简单的文本描述快速生成长达一分钟的高质量视频,更好地遵循用户的指令,生成的视频具有高度逼真的视觉效果,包含复杂的场景、多角色互动以及特定类型的运动。
深色与浅色模式:对界面的视觉效果进行优化,适配不同使用场景和用户偏好。
GPT版本历史:方便用户了解GPT的迭代情况,追溯功能变化。
自定义指令(GPT-4):用户可以在系统层面为ChatGPT定制化一些指令,包括个人背景信息和回复格式要求。DALL·E 3 controls (style & aspect ratio), editor & inpainting:为用户提供了丰富的预定义风格选择;用户可以对指定区域用自然语言提示词进行微调,如增加画面元素、删除画面元素、修改特征等。
朗读(网页端):自动检测正在读取的文本的语言,然后以相应的语言进行朗读;提供五种不同的声音。
收益计划:根据GPTs的使用量,与开发者进行分成,为开发者提供了一种新的盈利途径,以激励创建更优质的GPT服务。
无账号访问:更便捷体验ChatGPT,但只能使用GPT-3.5免费版,使用Dall-E 3等高级功能仍需账号。数据控制v2:用户可以在不影响查看聊天历史的情况下选择是否将自己的数据用于模型训练;新增了移动端语音数据选项,默认关闭。
域名统一迁移到了chatgpt.com,统一品牌和服务入口。
GPT-4 Turbo发布:比GPT-4的生成速度快两倍,具有更大的上下文窗口,达到128k个token,价格只有1/3
免费用户也可以选择默认的对话模型,比如切换GPT-4o-mini和GPT-4o,根据自身需求定制对话模型,提高效率和一致性。Connected apps:仅适用于ChatGPT plus、团队和企业用户,可以直接将Google Drive和Microsoft OneDrive中的文件直接上传到 ChatGPT,方便用户对云端存储中的文件进行分析和处理。
为macOS系统用户推出了桌面应用程序。
GPT-4o发布,具有多模态能力,能够同时处理文本、音频和视觉等多种模态的信息,在语音对话方面表现出色,自然流畅且能实时表达情感和理解语音背后的情绪,支持50种语言,并且在API上价格更便宜、性能提升2倍、速率限制提高5倍。
对ChatGPT的界面进行了重新设计,代号Fruit Juice
用户可以使用不同的模型对同一个prompt重新生成回答。
不再为用户提供「Sky」语音选项,具体原因暂未公开。
用户可以根据对话的进展和需求,在同一次对话中切换模型,提高了对话的灵活性和效果。
免费用户可以使用一些之前仅限付费用户使用的工具和GPTs,如互联网访问、图像上传和分析、创建图表、高级数据分析、启用记忆功能、访问 GPT 商店等。
苹果在2024年全球开发者大会(WWDC)上,宣布与OpenAI达成合作,将ChatGPT集成到Siri中;用户请求不会被OpenAI存储,用户的IP地址会被模糊处理,且用户可选择是否连接ChatGPT账号。将此前面向ChatGPT plus用户推出的macOS桌面应用程序Sidekick,转为所有用户可用,可以在应用内进行截图并与GPT-4o讨论,辅助理解代码片段或解读复杂的图表等。
GPT-4o mini (Chive)发布,比GPT-4o的参数量更少,API支持128k、16k输入tokens长度,价格上比GPT-3.5 Turbo便宜60%以上,也是OpenAI首个使用全新安全策略「指令层次结构」的AI模型,即要求系统优先执行预设命令,可以阻止恶意用户诱导模型执行非法操作。GPT-4o和GPT-4o mini发布后,GPT-3.5在多语言支持、响应速度和处理能力方面就显得很弱了,在7月19日正式退役。
ChatGPT的新界面(Fruit Juice)对所有用户切换为默认。
OpenAI发布SearchGPT原型产品,能够准确理解用户的复杂查询,提供更加相关的搜索结果,克服了传统搜索引擎在处理复杂和模糊查询时的不足;不仅能提供相关搜索结果,还可利用强大的语言生成能力直接生成详尽的回答;用户可以像与人对话一样提出后续问题;在搜索结果中突出引用并链接信息来源,回复中有清晰的内联归因,用户还可从侧边栏快速访问更多来源链接。
基于GPT-4o的视频和音频能力,Advanced voice(gpt-4o-s2s)可以感知和回应用户情绪,提供更自然、实时的对话体验,用户可以随时打断。免费用户每天可以使用DALL・E 3生成两张图片。
模型记忆的最大tokens长度增加到8k,在处理长文本和复杂对话时可以更好地保留上下文信息,避免因记忆限制而出现的回答不完整或遗忘前文的情况。
Starter Prompts v2: 提供了更新和更丰富的起始提示语,更好地引导用户提出高质量的问题和请求。
ChatGPT宣布正在与Google Drive和Slack开发新的同步连接器,用户可以无缝访问文档内容,提高团队效率。
OpenAI对ChatGPT的高级语音模式进行了更新,新增了视频和共享屏幕功能,能理解各种口音和语调并准确转化为文本,还支持实时翻译,方便国际用户沟通。OpenAI发布o1-preview,专为处理高复杂度、需要深度推理的任务而设计,如法律分析、学术研究和复杂决策制定等场景;可以处理图像、音频等多种数据格式;开发者可以根据具体业务需求对模型进行高度定制,可适应电商产品推荐、教育培训课程设计等。
o1-mini更加经济,成本相比o1-preview降低约80%,适用于计算资源有限但需要结构化推理能力的环境,在基本的推理任务上表现出色,如数学和编程。
添加了两个快捷指令:「/picture」可以调用DALL-E模型生成图片;「/search」可以将用户输入转为搜索查询。
为macOS和Windows桌面端推出高级语音功能,用户可以设置自定义指令来定制模型的语音风格、语速等。基于GPT-4o推出画布功能(gpt-4o-canmore),用户可以绘图、创建思维导图、流程图等;为开发者提供一个可视化的代码结构工具,用户可以在画布上绘制软件架构或函数结构;能够直观地整理思路,拖拽文档结构,添加注释,为用户优化文本;用户可以通过头脑风暴,组织关键点,绘制幻灯片。
用户可以在聊天历史中进行快速搜索(Fanny Pack),如特定内容、问题、答案等。
ChatGPT网页版的付费用户可以使用高级语音功能,能感知用户语音在语调和语速上的细微差别;可以设置自定义指令来定制模型的说话方式,比如以特定的节奏说话、发音清晰、慢速说话,定期加入用户的名字等。Windows版的桌面应用程序(Sidetron)支持语音输入、截取屏幕、上传本地文件等。
ChatGPT桌面端在macoS系统上,支持在Xcode、VSCode、TextEdit等IDE和各种编辑器中调用 ChatGPT 获取代码解释和解决报错,以及与终端等应用程序的联动。
在高级语音模式中增加了视频和屏幕共享功能,ChatGPT可以看到用户的操作和展示的内容,并做出更精准的回应,适用于在线会议、远程协作、在线教学等场景。用户在画布中可以直接执行Python代码,为数据科学家和分析师等提供了更便捷的数据分析和处理环境。
OpenAI发布o1正式版,速度提升50%,出现重大错误的概率减少了50%;o1-pro需要ChatGPT Pro才能使用,月费200美元,能够更深入地思考,提供更高质量的答案。
OpenAI展示o3模型, 在ARC-AGI基准测试中取得75.7%的高分,展现出强大的推理、编码和数学解题能力,接近人类专家甚至在某些方面超越人类水平;o3-mini-preview相对更具成本效益,正式版o3-mini计划2025年1月底发布。
为了确保o3和o3-mini模型在发布前的安全性和可靠性,OpenAI采用了多层安全测试方法,将内部评估与外部研究计划相结合,招募安全研究人员参与测试,以便发现潜在的安全风险和漏洞并及时修复。
OpenAI发布Sora Turbo,支持文本、图像和视频输入,能生成分辨率高达 1080p、时长最长 20 秒的视频,格式可选宽屏、竖屏或方形;支持5个创意工具,用户可以精确控制每一帧内容,为视频添加多个分镜头,替换、删除或重构视频中的元素,使用循环剪辑并创建无缝重复的视频等。
https://x.com/btibor91/status/1873391215980527840