社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

OpenAI扔出DALL·E 3!联手ChatGPT,无需复杂提示词,画面细节拉满

夕小瑶科技说 • 1 年前 • 202 次点击  

夕小瑶科技说 分享
来源 | 智东西
作者 | 香草 李水青
智东西9月21日消息,今天凌晨,OpenAI宣布其文生图工具DALL·E即将升级至DALL·E 3,并将原生集成至ChatGPT中。

相比去年发布的DALL·E 2,在提示词相同的情况下,DALL·E 3对文字的理解程度及生成的图像质量显著提升。时常被诟病的“无法在图像上生成文字”的问题,也在这次升级中得到了解决。

▲DALL·E 3(右)和DALL·E 2(左)生成图像效果对比图,提示词为:在暴风雨的大海中,一个半透明玻璃制成的人类心脏矗立在一个基座上。阳光穿透云层,照亮了心脏,揭示了一个微小的宇宙。“寻找你内心的宇宙”这句话在地平线上用粗体字蚀刻着。(图源:OpenAI、Sambhav Gupta)

而DALL·E 3与ChatGPT的结合,更是产生了奇妙的化学反应。用户不再需要学习如何使用合适的提示词来描述自己想要的图像,因为ChatGPT可以直接理解自然语言,帮你完成这一切。

▲在ChatGPT中使用DALL·E 3直接生成图像(图源:OpenAI官网)

升级版的DALL·E 3将于10月首先向ChatGPT Plus和企业版客户开放,之后在秋季稍晚些将提供API接口并面向公众开放。

此外,OpenAI特别强调DALL·E 3已采取多方面安全措施,包括暴力内容限制、拒绝生成含公众人物图像、拒绝模仿在世艺术家风格等,且允许创作者提交删除自己图像的申请。

那么DALL·E此次升级究竟实现了怎样的效果?和ChatGPT的集成又将擦出什么样的火花?OpenAI通过一段视频演示以及多张图像示例,向我们生动地展示了DALL·E 3的强大之处。

01 原生集成于ChatGPT,DALL·E 3可以直接“讲故事”了

DALL·E此次升级,最大的亮点无疑是与ChatGPT的原生集成。OpenAI称,现在的文生图系统大多将重点放在生成图像的质量和水准上,而忽略了文字和描述的重要性,这使得用户不得不学习复杂的提示词工程。

而DALL·E 3通过集成ChatGPT,使文字生成图像这一过程中的“文字”部分实现了质的飞跃。

过去,当用户使用DALL·E 2、Midjourney等文生图AI工具时,通常的做法是:首先通过ChatGPT等聊天机器人,用简单的提示词生成丰富的图像描述文本;然后再进入文生图软件,用图像描述文本生成图片。如果生成效果不佳,就需要反复操作多次,步骤十分繁琐。ChatGPT+DALL·E 3的组合则直接省去了中间步骤,一步到位。

OpenAI提供了一个视频来展示DALL·E 3的使用效果。这是一个家长为5岁孩子将想象带到现实中的故事。

当家长询问:“我家5岁的宝宝总是提到一只‘超级向日葵刺猬’——它会长什么样子?”

ChatGPT生成了四段描述该刺猬的文字,随后根据文字生成了相应的图像。

家长选择了其中一张图像,追问道:“我的女儿说这只刺猬名字叫Larry,可以提供更多它的图像吗?”

ChatGPT此时根据用户选择的刺猬形象,生成了更多不同画风的图像。

随后,家长说想看看Larry的房子,ChatGPT便生成了一张Larry在房门口检查信箱的画面。

值得注意的是,他的信箱上甚至写着自己的名字“LARRY”。这意味着DALL·E 3实现了在图像上写字的功能。

结合ChatGPT的文字生成功能,这只小刺猬还可以拥有自己的“人设”。

当家长追问:“是什么让他如此‘了不起’?”ChatGPT回答,是因为他有着向日葵花瓣作为“刺”,并且很善良。

家长继续追问,他的善良是如何体现的?ChatGPT便生成了一幅漂亮的插画,画面上,Larry和蝴蝶、小鹿以及其他的小刺猬伙伴们一起在草丛上玩耍。

此外,ChatGPT在画风迁移方面也完成得很好。可以生成不同风格的Larry,比如贴纸风:

最后,当家长提出是否可以基于这些内容讲一个睡前故事,ChatGPT便生成了一个名为“了不起的向日葵刺猬Larry”的故事。

当然,ChatGPT也可以继续为自己讲的这个故事创作插图。

不得不说,ChatGPT和DALL·E的结合可以实现1+1>2的效果。比起之前提供多个独立、专业提示词的生成方式,现在的DALL·E 3更像是以讲故事、聊天的方式,完成了图像的生成和二次创作。

02 相同提示下 DALL·E 3生成图像质量显著改进

DALL·E 3和ChatGPT的集成之所以能够产生优秀的“连招”效果,离不开DALL·E 3模型本身的性能提升。

DALL·E 3在图像生成方面比DALL·E 2改进了很多。OpenAI提供了一个例子,对于同样的提示词“一幅表现篮球运动员扣篮的油画,描绘成星云的爆炸”,同时使用DALL·E 2和DALL·E 3生成图像并进行对比。

可以看出,DALL·E 3对“扣篮”这一动作的描绘更加准确,对“星云爆炸”这一风格的迁移也更加相似。相比之下,DALL·E 2描绘的图像手绘质感更强烈,对提示词的表现没有那么贴近。

▲DALL·E 2(左)与DALL·E 3(右)生成图像对比(图源:OpenAI)

OpenAI在旗下社交媒体Instagram上分享了多张由DALL·E 3生成的图像,并分享了用于生成这些图像所使用的文字和描述。

比如下图,所使用的提示词为:一个牛油果坐在治疗师的椅子上说,“我只是觉得内心很空虚”,它的身上有一个坑大小的洞。治疗师是一个勺子,正在潦草地记着笔记。

▲DALL·E 3生成的插画(图源:OpenAI)

一位AI爱好者Sambhav Gupta在其社交媒体X上分享了他利用OpenAI提供的提示词在DALL·E 2中生成的图像。可以明显看出,DALL·E 2对于这种自然语言提示词的理解差了很多,也无法生成准确的文字,看起来更像是乱码。

▲Sambhav Gupta使用DALL·E 2生成的图像

Gupta尝试了OpenAI公开分享的9张图像的提示词。可以看出,无论是从准确性上,还是画面的精致程度上,DALL·E 3比起DALL·E 2都有较大的提升。

▲Sambhav Gupta使用DALL·E 2生成的图像与DALL·E 3生成图像对比

DALL·E 2于去年4月发布,并于同年7月面向公众开放。时隔一年多,OpenAI宣布新版DALL·E 3将于10月首先向ChatGPT Plus用户和企业版用户发布,随后在秋季晚些时候提供API接口并面向公众开放。

03 注重安全、版权保护,创作者可提请删除作品

9月20日,OpenAI宣布面向全球公开招募“红队网络”,邀请有兴趣提高OpenAI模型安全性的领域专家组成一个社区,帮助评估和抵御风险提供信息。

此前,OpenAI曾多次被起诉侵权,指出其大模型训练未经允许使用他人的作品。也许是为了规避类似的情况,此次更新时,OpenAI特别强调了安全性和版权问题。

OpenAI声称,团队已采取相应的措施来限制DALL·E 3生成含有暴力、成人、仇恨等违规内容的能力。此外,他们与红队网络合作,提高了风险领域的安全性,拒绝生成包含公众人物的内容。

在图像侵权方面,OpenAI称DALL·E 3将拒绝要求模仿在世艺术家的风格,且创作者们可以通过填写表单,要求OpenAI将他们的作品从模型训练中删除。

▲OpenAI为创作者提供的申请表单(图源:OpenAI官网

和DALL·E 2一样,用户使用DALL·E 3创建的图像可自由使用,用户对图像拥有使用权、商用权等。

此外,在最近备受关注的数字水印方面,OpenAI称正在研究识别AI生成图像的最佳方法。他们正在测试一种新的内部工具,用于识别图像是否由DALL·E 3生成,并且希望利用这一工具可以更好地了解图像的生成方式。该工具相关的信息也将尽快公布。

04结语:DALL·E 3+ChatGPT,重新定义AI绘画方式

今天凌晨,OpenAI宣布将在10月开始陆续向ChatGPT Plus版、企业版等原生集成升级后的DALL·E 3。从目前公开的资料来看,DALL·E 3将会是一次巨大的变革,不仅通过与ChatGPT的结合颠覆了文字描述的方式,在生成图像的质量上也实现了显著的进步。

尽管OpenAI此次更新特别强调了安全及版权相关的问题,但在AI绘画领域,相关的争议仍备受关注。此外,AI绘画工具对于艺术创作者而言究竟是辅助还是威胁,创作者是否会因此失业等问题,也值得企业和社会思考和反思。

无论如何,DALL·E 3的此次更新势必会引发大范围的讨论和争议,甚至可能直接重新定义AI绘画的方式。未来,AI绘画领域将如何发展,是我们共同关心的问题。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/162035
 
202 次点击