4 款用文本生成视频（text-to-video）的 AIGC 工具推荐

各种生成式 AI 工具的出现正在极大提高视频制作人员的工作效率，只需一段文字就能在几分钟内生成一段让人眼前一亮的视频，这场生产力颠覆革命正在视频领域发生。

这篇文章将介绍 4 款“文生视频” AI 工具。

1.
zeroscope v2

这是一款基于 Modelscope 的无水印视频模型，能够生成 1024 x 576 的高质量视频。该模型是使用 24 帧、1024x576 分辨率下的 9,923 个剪辑和 29,769 个标记帧，根据带有偏移噪声的原始权重进行训练的。

入口：

https://huggingface.co/spaces/hysts/zeroscope-v2

2.
VideoCrafter

VideoCrafter 是一个用于制作视频内容的开源视频生成和编辑工具箱。目前提供给三类模型：

一个基于潜在视频扩散模型（LVDM）的基本文本到视频（T2V）生成模型。它可以根据输入的文本描述合成逼真的视频。

这是一个基于预训练的 LVDM，可以通过在一组描述某个概念的视频剪辑或图像上进行微调来创建我们自己的视频生成模型。采用了 LoRA 来实现微调，因为它易于训练并且需要较少的计算资源。

为了增强文生视频模型的可控能力，开发了条件适配器。通过将轻量级适配器模块插入到文生视频模型中，我们可以获得具有更详细的控制信号（例如深度）的生成结果。

入口：

https://huggingface.co/spaces/VideoCrafter/VideoCrafter

3.
Runway Gen2

Runway Gen2 是一个多模态 AI 系统，可以通过文本、图像或视频生成新的视频。默认可以生成 768x448 分辨率的视频，可以升级至 1536x896 分辨率。

Runway Gen2 是目前体验感受最好的文生视频 AI 工具。

Gen2 拥有多大 7 种视频生成模式：

1.）文本→视频

仅使用文本提示即可合成您能想象到的任何风格的视频。只要你能写出来，它就能生出来。

2.）文本+图像→视频

使用一张图像+文本 Prompt，然后生成与这个图像关联的视频

3. ）图像→视频

仅使用一张图像来生成一个视频。例如让你的图像内容动起来。

4. ）风格化

将任何图像或 Prompt 的风格转移到视频的每一帧。

5. ）故事板

将模型转变为完全风格化和动画的渲染。

6. ）面具

隔离视频中的主题并使用简单的文本 Prompt 对其进行修改，就像对视频中的特定元素进行 PS。

7. ）渲染

通过应用输入图像或 Prompt，将无纹理的渲染转换为真实的输出。

入口：

https://research.runwayml.com/gen2

4.
Modelscope v1

这个文生视频扩散模型由三个子网络组成：文本特征提取、文本特征到视频潜在空间扩散模型、视频潜在空间到视频视觉空间。整体模型参数约为17亿。支持英文输入。这个扩散模型采用Unet3D结构，通过对纯高斯噪声视频进行迭代去噪处理，实现视频生成的功能。

入口：

https://huggingface.co/spaces/damo-vilab/modelscope-text-to-video-synthesis