社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

比 Sora DiT 架构早两个月的 U-ViT,由这家中国 AIGC 公司提出

AIWalker • 1 年前 • 202 次点击  

关注AIWalker星标

从此AI不迷路


来源 | AI科技评论  作者 | 王悦  编辑 | 陈彩娴


CVPR2023 曾拒稿 OpeanAI 的 DiT,收录生数科技的 U-ViT。

「Sora 出来之后,团队就开始连轴转,没休息过。」这是 AI 科技评论了解到的,目前国内诸多 AIGC 创业公司的现状。

Sora 的确让世界范围内的创业公司措手不及。随之而来的,有一种悲观论调和怀疑态度:创业公司和 OpenAI 拼术是否有意义?是否有必要做同样的事情?有多大的生存空间?

诚然,要弥合和 OpenAI 的差距并非易事,基于算力、投资等前提条件, OpenAI 的效果自然不是短期内可以达到,但是也不见得到了技术层的创业公司无路可走的地步。

清华系创业团队生数科技提出的技术路线,和 Sora 在架构路线上完全一致,均是提出了将Transformer 与扩散模型融合的思路,在具体的实验路径上也一致。并且,生数科技的 U-ViT 比 OpenAI 的 DiT 早了两个月。

甚至,彼时的 CVPR2023 选择收录了U-ViT,而将 DiT 拒稿。

目前,生数科技的多模态大模型全链路均自主训练、自主研发,是全球首个将Transformer架构引入扩散模型的骨干网络。在文生图、文生视频、文生3D、图生3D等多项任务中已经初见成效。

近来,也完成了由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投的数亿元融资,是目前国内多模态大模型赛道的最高融资额。

生数科技 CEO 唐家渝表示,面对国内多模态大模型的竞争,生数科技会承担引领国内底层技术创新的角色。

即使在 Sora 的笼罩下,国内的多模态大模型也不无机会。



1

全栈自研的 MaaS

2023年3月,团队开源了全球首个基于Diffusion Transformer架构(U-ViT)的多模态扩散大模型 UniDiffuser,在参数量和训练数据规模上,与Stable Diffusion直接对齐。在架构上,UniDiffuser 比最近才采用 DiT 架构的 Stable Diffsion 3 领先了一年。

除了单向的文生图以外,Unidiffuser支持更通用的图文任务,能够实现图生文、图文联合生成、图文改写等多种功能。

在统一化架构的思路下,生数科技持续 Scale up。在图文模型的训练中,参数量从最早开源版的1B不断扩展至3B、7B、10B及以上。同时在此基础上,通过拓展空间维度和时间维度,逐步实现 3D 生成与视频生成。同时面向应用层推出了视觉创意设计平台PixWeaver与3D 资产创建工具 VoxCraft。

PixWeaver是一款自动化的视觉创作工具,支持AI生图、AI生视频功能,中英文输入、秒级生成,融合多元风格,具备出色的语义理解和丰富的画面表现。(体验地址:https://pw.shengshu-ai.com/,目前AI视频功能由于新版本迭代暂关闭试用

在图像生成方面,支持高质量的文生图,在画面联想丰富度、美观性等方面优于业内同类模型。

并且,其语义理解能力尤其突出。
(描述词:公园里的竹林里挂着红色灯笼,旁边盛开着粉红色的梅花,远处是一座亭台楼阁,夕阳洒在蜿蜒的公园小路呈现出温暖的感觉,宝丽来照片风格,真实摄影)
在3D 生成方面,VoxCraft可实现高精度与最快10秒级的模型生成。

并推出全球首个4D动画生成,基于视频和描述词,输出逐帧的运动3D动画,自动绑定骨骼动作,支持360°全景视角。

此外,该模型还可以通过文本对话或手动调的方式灵活编辑3D场景,包括添加物体、删除物体等,可实时查看变化。

VoxCraft 相较于同类型的3D资产创建的自动化工具,核心优势在于:
  • 精度高:贴图分辨率可达到2048*2048,几何结构的规整度高,色彩与材质质感真实度高;
  • 速度快:在单卡设备上,单个3D模型生成最快可在数分钟内生成;
  • 可用性强:支持Mesh的同步生成,支持高模、低模的定制,可直接对接工业管线;
  • 丰富度高:覆盖资产类型多,通用性强,支持文本或图像引导。



2

最接近 Sora 技术架构的中国团队

从技术架构来看,生数科技是最接近于 Sora 的中国团队。
OpenAI推出的Sora模型,其核心技术点之一,是将视觉数据转化为Patch的统一表示形式,并通过Transformer和扩散模型结合,展现了卓越的scale特性。无独有偶,最近发布的Stable Diffusion 3采用了同样的架构。
Transformer架构被熟知应用于大语言模型,该架构的优势在于scale特性,参数量越大,效果越好;而在传统视觉任务(图像和视频生成)中,业内普遍采用常规的卷积路线的扩散模型(基于SD开源的思路),该路线能实现一定的效果,但扩展性不好。DiT将Transformer架构与扩散模型融合,把大语言模型的扩展性、涌现性复制到了视觉任务上。
其实早在2022年9月,生数科技团队早期成员就提交了一篇名为《All are Worth Words: A ViT Backbone for Diffusion Model》的论文,这篇论文提出了基于transformer的网络架构U-ViT。
对比来看,两项工作采用了相同的patch embedding、patch size,都得出了同样的结论patch size为2*2是最理想的,在模型参数量上两者都在50M-500M左右的参数量上做了实验,最终都证实了scale特性。
不过DiT仅在ImageNet上做了实验,U-ViT在小数据集(CIFAR10、CelebA)、ImageNet、图文数据集MSCOCO均做了实验。此外,相比传统的 Transformer,U-ViT提出了一项“长连接”的技术,大大提升了训练收敛速度。
但U-ViT同样展示了在视觉任务下的优异能力,与当时同阶段的SD1.5 比较,Unidiffuser效果是基本持平的。更重要是,Unidifuser扩展性更强,能基于一个底层模型完成图文之间的任意生成。
生数团队的几位核心成员近几年于ICML、NeurIPS、ICLR 等人工智能顶会发表相关论文近30篇,是现阶段在该领域发表论文成果数最多的国内团队。
抱持着底层算法原始创新、从零开始自主训练的态度,生数科技团队也形成了多项能与其他公司拉开差距的技术成果。
无训练推理框架Analytic-DPM
扩散模型的一大局限是计算速度缓慢,研究加速算法是提升扩散模型应用效果的难点。
2022年,团队核心成员提出了一种无训练推理框架:Analytic-DPM,使用蒙特卡洛方法和预训练的基于得分模型来估计方差和 KL 散度的分析形式。该方法可以在无需额外训练的情况下,直接估计得到最优方差,该成果在理论贡献方面具有重要意义。
另外从应用效果看,免训练推理框架的提出大大加速了模型的采样效率,经对比,Analytic-DPM经过 50 步采样的效果优于 DDPM 采样 1000 步的效果,加速了近 20 倍。
该论文被评选为ICLR2022杰出论文,也是该会议首篇由中国大陆单位独立完成的获奖论文,此外该成果也被OpenAI 应用于 DALL·E2 模型处理方差的策略中。
多模态基础大模型 UniDiffuser
2023年3月,团队开源国内首个基于Transformer的多模态扩散大模型UniDiffuser,采用了基于transformer的网络架构U-ViT,在开源的大规模图文数据集LAION-5B上训练了一个十亿参数量的模型,实现基于一个底层模型能够高质量地完成多种生成任务。
除了单向的文生图,还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能,能够实现任意模态之间的转化,大幅提升文图内容的生产效率,也进一步提升了生成式模型的应用想象力。
更值得一提的是,从技术路线看,生数科技是国内唯一的原生多模态大模型厂商,原生多模态是基于通用的融合架构对文本、图像、视频等多模态数据进行统一范式的训练,简单类比就是基于一个底层架构实现“GPT4+DALLE3+GPT4V”的统一,而不是通过接口调用不同的模型。生数科技坚持融合架构的原生路线,致力于提升对开放域下复杂交互场景的信息生成能力。

【AIWalker】期待您的关注

如果你关注以下方向,请关注一下「AIWalker」~

底层视觉处理:如图像超分、图像降噪、低光增强、图像复原、人脸复原、等图像处理相关方向;

基础AI技术栈:如算子解析、轻量化网络、CNN、Transformer、MLP、VLM等视觉相关架构;

图像分割方向:如语义分割、人体解析、人像抠图、显著性分割以及单目深度估计等相关方向;

检测跟踪方向:如通用检测、人脸/人体检测、YOLO、DETR、DeepSORT等相关技术栈;

模型部署维度:如知识蒸馏、模型量化、NCNN、TFLite、TensorRT、RKNN等技术与工具链。


▲点击上方卡片,关注AIWalker公众号

觉得内容还不错的话,给我点个“在看”呗




Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/167892
 
202 次点击