社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

爆火全网《猫和老鼠》背后模型竟是这家国产AI!掀二创风暴GitHub破万星

新智元 • 1 周前 • 20 次点击  



  新智元报道  

编辑:编辑部 HZN
【新智元导读】最近英伟达等机构爆火全网的《猫和老鼠》,背后模型被扒出来了——竟是来自智谱国产大模型CogVideoX-5B!原来,这个模型凭惊人的效果,早已在开源社区开发者中掀起一股全球的二创风暴。

最近,英伟达重现《猫和老鼠》的视频,在全网掀起一股风暴。

只需要一个提示,不用任何剪辑,AI就可以帮我们任意创作这个童年经典动画,一次60s,童年回忆无限续杯!

这个神奇的「一分钟视频」生成器,由英伟达、斯坦福、UCSD等机构的研究者构建。

而且原理极其简单——只需在预训练Transformer中嵌入TTT层,就能让一个5B的小模型理解复杂提示,生成长达1分钟的视频了!

论文地址:https://test-time-training.github.io/video-dit/

前方高能,准备好,无限精彩的童年经典全新故事来了!

汤姆正在厨房的桌子旁高兴地吃着苹果派,不料趁它去开门时,苹果派被杰瑞偷走了。两人上演追赶大法,最终杰瑞成功逃脱,汤姆撞到墙上。

杰瑞在水下找到了藏宝图,成功躲避汤姆后,它在沉船中发现了宝藏。然而正在庆祝时,汤姆的追逐却让它遇到一条饥饿的鲨鱼,陷入了大麻烦。

如此生动精妙的效果,简直如同一枚炸弹,在AI创作圈炸出了惊人的冲击波。

有意思的是,当我们去深入调查背后技术时,发现这个爆火全网的研究,竟然是建立在一个来自智谱AI的国产大模型的基础上。

具体来说,研究者们用了预训练的CogVideo-X 5B作为基础模型,在这个模型里加上TTT层,再进行微调。

随后,就出来了上面那一幕幕惊人的效果。


CogVideoX-5B亮相即爆火


而这个传说中的CogVideo-X系列图生视频模型,早在去年8月开源时,就在AI圈内引起了不小的轰动。

它是一个简单且可扩展的结构,包含一个3D因果VAE和一个专家Transformer,可以生成连贯、长时长、动作丰富的视频:

· 支持多种宽高比,分辨率高达768×1360,长度为10秒,帧率为16fps


· 是首批商业级开源视频生成模型,有5B和2B两种规模,包括文本到视频和图像到视频版本

在CogVideoX-5B中,只要输入「一张图像」+「提示词」,就能生成视频了。

比如输入狗狗图片,配文「开心狗狗」,一只张嘴微笑的开心狗狗视频就生成了。

而且,CogVideoX-5B的视频生成效果,在当时开源界就已经足够惊艳。

一只狗在雨中奔跑,还戴着墨镜,尤其是地面中的倒影更显真实。还有外星人与宇航员握手这种未来科幻的场景,以及满是蝴蝶及喷泉的梦想中的精美画面,都能实现。

左右滑动查看

这个模型在工程优化上也保持了一定的高标准——

  • 支持多种推理精度,推理显存需求最低仅为11.4GB,单张3060显卡即可完成推理;

  • LoRA微调显存需求为63GB,SFT微调为75GB,单卡A100(80GB)同样可以完成微调任务。

后来,智谱团队又在11月开源了能力更强的CogVideoX v1.5,包括 CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V两个版本。

相比于CogVideoX-5B,CogVideoX v1.5包含5/10秒、768P、16帧的视频生成能力,I2V模型支持任意尺寸比例,大幅提升了图生视频质量及复杂语义理解。 

目前,CogVideo & CogVideoX系列模型已在GitHub上斩获了11.2k star。

开源项目:https://github.com/THUDM/CogVideo


创新架构,刷新SOTA


一直以来,视频生成模型都存在着运动幅度有限、持续时间较短的问题。其中,基于文本生成具有连贯叙事性的视频尤为困难。

为解决这些挑战,智谱团队提出了诸多创新性的设计。

论文地址:https://arxiv.org/pdf/2408.06072

首先,团队设计并训练了一个3D因果VAE,在空间和时间维度上对视频进行压缩,从而实现了高维视频数据的高效处理。

与先前微调2D VAE的方法相比,这种策略不仅有助于显著减少序列长度和相关训练计算量,还能有效防止生成视频中的闪烁,从而确保帧间的连续性。

其次,为改善视频与文本间的对齐效果,团队提出了一种带有专家自适应LayerNorm的专家Transformer,用来促进两种模态的融合。

为确保视频生成中的时序一致性并捕捉大范围运动,建议使用3D全注意力机制,从而在时间和空间维度上对视频进行全面建模。

第三,鉴于在线可用的大多数视频数据缺乏准确的文本描述,团队开发了一个能够准确描述视频内容的视频描述生成流程。

通过为所有视频训练数据生成了新的文本描述,CogVideoX精确理解语义的能力得到了显著的增强。

此外,团队还设计了渐进式训练技术,包括多分辨率帧打包和分辨率渐进式训练,用以进一步提升CogVideoX的生成性能和稳定性。

以及,提出了显式均匀采样(Explicit Uniform Sampling)方法——通过在每个数据并行单元上设置不同的时间步采样间隔,稳定了训练损失曲线并加速了收敛。

对于生成时间较长的视频,一些模型可能会为了获得更高分数而产生帧间变化极小的视频,但这类视频缺乏丰富的内容。

为解决此问题,团队使用了两种视频评估工具:动态质量(Dynamic Quality)和GPT4o-MTScore。

前者通过结合多种质量指标与动态得分,减轻了由视频动态性与视频质量之间负相关所带来的偏差;后者则是通过GPT-4o来测量视频内容的变化程度。

结果显示,CogVideoX-5B不仅在视频生成质量方面表现出色,而且在处理各种复杂动态场景方面也优于先前的模型。

其中,CogVideoX-5B在7项指标中有5项取得了最佳性能,并在其余2项指标上也名列前茅。

在VAE重建效果方面, CogVideoX-5B取得了最高的PSNR值和最低的抖动。


开源社区,全是「二创」


由于出色性能,现在不少项目上都已经适配了CogVideoX。

在官方的Github页面上展示了十几个使用CogVideoX的开源项目链接,其中不乏一些实用、知名的项目。

比如下面这个DiffSynth-Studio开源项目,已经获得8.3k个星了。

项目地址:https://github.com/modelscope/DiffSynth-Studio?tab=readme-ov-file

该项目在CogVideoX-5B生成的视频基础上进行编辑和帧插值操作,以达到更好的效果。

左侧为原始文本生视频,右侧是编辑和帧插值后的结果

而KoolCogVideoX是一个基于CogVideoX的微调模型,专为室内设计而设计。

被CVPR 2025录用为Highlight的ConsisID,是一种身份保持的文本到视频生成模型,基于CogVideoX-5B,通过频率分解在生成的视频中保持面部一致性。

VideoX-Fun基于CogVideoX的框架,支持灵活的分辨率(从512到1024)和多种启动方法(包括ComfyUI、WebUI以及Python)。

显然,在未来我们还将见证更多基于CogVideoX-5B微调的项目如火如荼地上线,充分发挥CogVideoX系列开源模型的力量。

据说,3天后智谱的全新开源模型也要上线,包括基座模型、推理模型、沉思模型,实在是把期待值给拉满了。

参考资料:
https://github.com/THUDM/CogVideo
https://test-time-training.github.io/video-dit/

图片


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/180960
 
20 次点击