GitHub第一！！北大开源文生视频登上GitHub趋势榜单第一名！

北大开源文生视频登上GitHub趋势榜单第一名！

https://github.com/PKU-YuanGroup/Open-Sora-Plan

huggingFace的体验

https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0

虽然字节否认了400亿美金的利润传言，但是还是可以看出，短视频的赚钱魅力。

如果能够文生短视频，将是内容供给的一大改革。谁先做出来，谁赚钱。所以，需求特别旺盛，开源文生视频一出来，登顶github榜单，也在意料之中。

国际著名导演昆丁看后直接感叹：

该项目旨在创建一个简单且可扩展的存储库，以重现Sora（OpenAI，但我们更愿意称其为“ClosedAI”）。我们希望开源社区能为这个项目做出贡献。欢迎拉请求！

本项目希望通过开源社区力量的复现Sora，由北大-兔展AIGC联合实验室共同发起，当前版本离目标差距仍在加大，仍需持续完善和快速迭代，欢迎拉取！

项目阶段：

基本的

设置代码库并在景观数据集上训练无条件模型。
训练可提高分辨率和持续时间的模型。

扩展

在景观数据集上进行text2video实验。
在 video2text 数据集上训练 1080p 模型。
具有更多条件的控制模型。

网页用户界面

强烈建议通过以下命令尝试我们的网络演示。我们还提供在线演示和Huggingface Spaces。

🤝 享受由@camenduru创建的和，他慷慨支持我们的研究！

python -m opensora.serve.gradio_web_server

CLI 推理

sh scripts/text_condition/sample_video.sh

数据集

参考数据.md

评估

请参阅文档EVAL.md。

因果视频 VAE

重建

python examples/rec_video_vae.py --rec-path test_video.mp4 --video-path video.mp4 --resolution 512 --num-frames 1440 --sample-rate 1 --sample-fps 24 -
-device cuda --ckpt <Your ckpt>

训练和推理

请参阅文档CausalVideoVAE。

视频GPT VQVAE

请参考文档VQVAE。

视频扩散变压器

训练

sh scripts/text_condition/train_videoae_17x256x256.sh

sh scripts/text_condition/train_videoae_65x256x256.sh




    
sh scripts/text_condition/train_videoae_65x512x512.sh

🚀 提高训练表现

文生图的表现

文本生成图像（Text-to-Image）和文本生成视频（Text-to-Video）是人工智能领域中的两个热门研究方向，它们涉及到自然语言处理（NLP）、计算机视觉（CV）和机器学习（ML）等多个技术领域。以下是一些可能的技术路线和技术细节：

文本生成图像（Text-to-Image）

预训练的语言模型：使用大型预训练语言模型（如GPT系列）来理解文本输入的语义内容。
特征提取：通过卷积神经网络（CNN）或Transformer模型从文本中提取高级特征。
生成对抗网络（GANs）：结合生成器和判别器，生成器负责生成图像，判别器负责区分生成图像和真实图像。
条件GANs（cGANs）：在GANs的基础上，通过条件变量（即文本特征）来引导生成器生成特定内容的图像。
变分自编码器（VAEs）：使用VAEs生成潜在空间的表示，然后从潜在空间解码出图像。
优化和微调：通过优化算法（如梯度下降）和微调技术来提高生成图像的质量和与文本的相关性。

文本生成视频（Text-to-Video）

序列模型：使用循环神经网络（RNNs）或Transformer模型来处理视频的时间序列特性。
多模态学习：结合文本、图像和视频数据，训练模型以理解不同模态之间的关系。
时间一致性：确保生成的视频在时间上的连贯性和一致性，这可能涉及到复杂的时间建模技术。
动态特征提取：使用3D CNN或其他空间-时间模型来提取视频中的动态特征。
视频生成对抗网络（VGANs）：类似于cGANs，但用于视频内容的生成，确保生成的视频既符合文本描述又具有逼真的视觉效果。
端到端训练：设计端到端的网络结构，直接从文本到视频的生成，这可能包括编码器-解码器架构。

技术挑战

语义理解：准确理解文本的语义内容，并将其转化为视觉概念。
内容的多样性和创造性：生成多样化和创造性的内容，而不仅仅是模仿现有样本。
时间连贯性：对于视频生成，保持时间上的连贯性和逻辑性是一个挑战。
计算资源：这些模型通常需要大量的计算资源，特别是在处理高分辨率视频时。
伦理和隐私：生成内容可能涉及版权、隐私和伦理问题，需要在技术开发的同时考虑这些问题。

在 "open-sora-plan" 项目中，研究者可能会探索上述技术路线和技术细节，以实现从文本到视频的生成。这样的项目需要跨学科的合作，包括计算机科学家、语言学家、艺术家和伦理学家等，以确保技术的发展既先进又负责任。