
Prompt: 在一个培养皿中,生长着一片竹林,其中小熊猫们在欢快地奔跑。
当大家还沉浸在龙年春节喜庆的鞭炮声中的时候,OpenAI 发布了首个文本生成视频大模型 Sora ( 官网 https://openai.com/sora ),相比一年前的 ChatGPT 又是一次颠覆性的进步。Sora 的出现不仅标志着 OpenAI 在视频生成领域的宏大进入,而且预示着未来内容创造的无限可能。
一条简单的文字指令便可直接生成一段 60 秒的短视频,还能够处理不同持续时间、分辨率和纵横比的视觉数据,从而使视频的细腻度与真实拍摄的视频别无二致。 Sora 完美继承 DALL·E 3 的画质和遵循指令能力。

Prompt: 在一杯咖啡中,两艘海盗船展开了激烈的战斗,超写实的近景视频。

Prompt: 中国龙年舞龙的视频。

Prompt: 一位20多岁的年轻人坐在天空中的一朵云上,沉浸在书本中。

Prompt: 一只卡通袋鼠正在迪斯科舞池中跳舞。

Sora和 Pika、RunwayML、Stable Video 同一提示词的对比
本质上,Sora和Pika、RunwayML 采用了相似的底层模型,即Diffusion扩散模型。不同之处在于,Sora 把其中的实现逻辑进行了变化,将 U-Net 架构替换成了Transformer 架构。
最终在OpenAI强大的团队调教下,无论是视频时长,还是画面精细度,还是细节完整性,或是多镜头拍摄,Sora 都远远超越了这些小创业公司的视频,用碾压来形容也并不为过。