Py学习  »  Git

GitHub第一!!北大开源文生视频登上GitHub趋势榜单第一名!

GitHub项目进阶 • 1 月前 • 47 次点击  

北大开源文生视频登上GitHub趋势榜单第一名!

https://github.com/PKU-YuanGroup/Open-Sora-Plan

huggingFace的体验

https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0


虽然字节否认了400亿美金的利润传言,但是还是可以看出,短视频的赚钱魅力。

如果能够文生短视频,将是内容供给的一大改革。谁先做出来,谁赚钱。所以,需求特别旺盛,开源文生视频一出来,登顶github榜单,也在意料之中。


国际著名导演昆丁看后直接感叹:

该项目旨在创建一个简单且可扩展的存储库,以重现Sora(OpenAI,但我们更愿意称其为“ClosedAI”)。我们希望开源社区能为这个项目做出贡献。欢迎拉请求!

本项目希望通过开源社区力量的复现Sora,由北大-兔展AIGC联合实验室共同发起,当前版本离目标差距仍在加大,仍需持续完善和快速迭代,欢迎拉取!

项目阶段:

  • 基本的

  1. 设置代码库并在景观数据集上训练无条件模型。

  2. 训练可提高分辨率和持续时间的模型。

  • 扩展

  1. 在景观数据集上进行text2video实验。

  2. 在 video2text 数据集上训练 1080p 模型。

  3. 具有更多条件的控制模型。


网页用户界面 

强烈建议通过以下命令尝试我们的网络演示。我们还提供在线演示 Huggingface Spaces。

🤝 享受@camenduru创建的和,他慷慨支持我们的研究!

python -m opensora.serve.gradio_web_server

CLI 推理

sh scripts/text_condition/sample_video.sh

数据集

参考数据.md

评估

请参阅文档EVAL.md

因果视频 VAE

重建

python examples/rec_video_vae.py --rec-path test_video.mp4 --video-path video.mp4 --resolution 512 --num-frames 1440 --sample-rate 1 --sample-fps 24 -
-device cuda --ckpt <Your ckpt>

训练和推理

请参阅文档CausalVideoVAE

视频GPT VQVAE

请参考文档VQVAE

视频扩散变压器

训练

sh scripts/text_condition/train_videoae_17x256x256.sh

sh scripts/text_condition/train_videoae_65x256x256.sh




    
sh scripts/text_condition/train_videoae_65x512x512.sh

🚀 提高训练表现

文生图的表现



文本生成图像(Text-to-Image)和文本生成视频(Text-to-Video)是人工智能领域中的两个热门研究方向,它们涉及到自然语言处理(NLP)、计算机视觉(CV)和机器学习(ML)等多个技术领域。以下是一些可能的技术路线和技术细节:

文本生成图像(Text-to-Image)


  1. 预训练的语言模型:使用大型预训练语言模型(如GPT系列)来理解文本输入的语义内容。

  2. 特征提取:通过卷积神经网络(CNN)或Transformer模型从文本中提取高级特征。

  3. 生成对抗网络(GANs):结合生成器和判别器,生成器负责生成图像,判别器负责区分生成图像和真实图像。

  4. 条件GANs(cGANs):在GANs的基础上,通过条件变量(即文本特征)来引导生成器生成特定内容的图像。

  5. 变分自编码器(VAEs):使用VAEs生成潜在空间的表示,然后从潜在空间解码出图像。

  6. 优化和微调:通过优化算法(如梯度下降)和微调技术来提高生成图像的质量和与文本的相关性。



文本生成视频(Text-to-Video)



  1. 序列模型:使用循环神经网络(RNNs)或Transformer模型来处理视频的时间序列特性。

  2. 多模态学习:结合文本、图像和视频数据,训练模型以理解不同模态之间的关系。

  3. 时间一致性:确保生成的视频在时间上的连贯性和一致性,这可能涉及到复杂的时间建模技术。

  4. 动态特征提取:使用3D CNN或其他空间-时间模型来提取视频中的动态特征。

  5. 视频生成对抗网络(VGANs):类似于cGANs,但用于视频内容的生成,确保生成的视频既符合文本描述又具有逼真的视觉效果。

  6. 端到端训练:设计端到端的网络结构,直接从文本到视频的生成,这可能包括编码器-解码器架构。



技术挑战



  1. 语义理解:准确理解文本的语义内容,并将其转化为视觉概念。

  2. 内容的多样性和创造性:生成多样化和创造性的内容,而不仅仅是模仿现有样本。

  3. 时间连贯性:对于视频生成,保持时间上的连贯性和逻辑性是一个挑战。

  4. 计算资源:这些模型通常需要大量的计算资源,特别是在处理高分辨率视频时。

  5. 伦理和隐私:生成内容可能涉及版权、隐私和伦理问题,需要在技术开发的同时考虑这些问题。



在 "open-sora-plan" 项目中,研究者可能会探索上述技术路线和技术细节,以实现从文本到视频的生成。这样的项目需要跨学科的合作,包括计算机科学家、语言学家、艺术家和伦理学家等,以确保技术的发展既先进又负责任。

北大开源文生视频登上GitHub趋势榜单第一名!

https://github.com/PKU-YuanGroup/Open-Sora-Plan

huggingFace的体验

https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0


英语不好的小伙伴看这里

http://www.gitpp.com/digital/open-sora-plan


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/168942
 
47 次点击