社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

开源方案之外的选择:阿里内部为设计打造的 AIGC 生产力平台 MuseAI

InfoQ • 1 周前 • 38 次点击  

作者 | 陆唯一
审校 | 刘侃,Kitty
随着大模型技术从技术变革转向产业变革,大模型应用也会进一步繁荣,传统基础设施技术已经不足以满足大模型应用的快速发展,整个基础设施技术和产业链正在快速转型,向大模型基础设施技术演变。2025 QCon 全球软件开发大会(北京站)策划了「面向 AI 的研发基础设施」专题,将深入分析 AI 基础设施的关键技术,包括机房服务器和芯片设计、大规模高性能网络技术、分布式模型并行技术、推理架构优化、算法和工程的结合等优化技术,以及它们在大规模生产环境中的应用和实践。如果你有相关案例想要分享,欢迎通过以下链接提交演讲申请:https://jsj.top/f/tUOLpz

MuseAI 是由阿里集团爱橙科技研发的面向阿里内部的 AIGC 创作工作台,同时通过与阿里云旗下魔搭社区合作共建的形式,将主体能力通过魔搭社区的 AIGC 专区对公众开放。本文主要介绍该设计平台的定位、目标和主要功能点,同时介绍了一些阿里内部应用的形式与案例。

考虑到 MuseAI 平台本身是公司内部服务,下文通过底层技术同源的魔搭社区 AIGC 专区来做说明与介绍,为避免混淆,下文如未特意提及,“ MuseAI ”和“魔搭社区 AIGC 专区”指代同一事物。

背景介绍

设计及其上下游衍生工作是很多企业内部工作流中的重要组成部分,设计工作传统上是重人力的,这意味着不可避免地会带来设计耗时长、质量不稳定、复用性低等问题。有不少设计相关的商业模式也因为这些特点会在论证初期就被否决掉,比如完全个性化的营销设计内容生成,在传统设计模式下,这个成本显然完全无法接受的。

而随着 AIGC 技术的兴起和发展,上述情况有了获得极大改善的可能性,以 sd- WebUI 和 Midjourney 为代表的社区和商业公司方案已经能在概念设计、营销素材、游戏素材等现阶段比较适合的领域取得非常广泛的应用,极大提高了效率和产出的平均质量。而且可以预见的是,随着技术的进一步发展, AIGC 技术带来的设计质量和适用范围还会持续提高扩大。

但同时我们也观察到,目前市场上一些主流的 AIGC 创作工具和平台还存在很多的限制和不适合企业团队使用的地方,以社区和商业公司的两类代表 WebUI 和 Midjourney 为例:

WebUI 是纯社区驱动,功能设计、产品形态甚至安装方式都不是典型的软件服务的形式,大量设计工作者会被其复杂凌乱的页面、艰难的安装流程、插件 / 依赖管理这些完全不应该由终端用户关心的问题所困扰。软件本身虽然免费开源,但是需要的高端消费级显卡也是不小的负担。对于团队来说,给设计团队配备一套统一的 WebUI 环境也是个需要投入技术和维护成本的事情。此外, WebUI 的 license 扩散风险也始终是商业公司难以放心使用的关键点。

Midjourney 是另一类的代表,闭源模型再结合社区内的用户行为反馈,让 Midjourney 在不少设计垂直领域拿出了目前最优秀的产出质量,操作相对也比较简单。但是相对来说,其功能的灵活性和可控程度就低了很多,难以通过其接口获得定制且稳定的产出并结合到工作流中。其通过 Discord 形式提供的接口也很不符合公司企业接入的习惯。

我们的目标

总体来说我们认为, AIGC 领域的原始算法与最终具有生产价值的 AI 绘图产品之间存在很大差距,现有的很多工具过于集中于底层技术视角,这对许多用户而言在使用上是很大的挑战,这部分差距需要由产品、算法、专业经验、基础设施和算力等多方资源补足;一个 AI 绘图产品到能被集成到个人或公司的工作链路中,去真正提升工作中的生产力,同样还需要投入大量的产研资源去填平两者之间的沟壑。

正是基于上述分析,爱橙科技 - 智能引擎团队与通义实验室 - 魔搭团队一起投入并建设了魔搭社区 AIGC 专区(MuseAI)。这是一个专为设计打造的 AI 绘图生产力平台,旨在为创作者提供流畅惊艳的绘画体验,也为大众提供了一个围绕 AIGC 的模型、设计讨论社区,促进相关生态发展。后续还将持续提供平台能力帮助个人与团队进行二次开发,快速构建垂直领域的 AI 创作服务。

MuseAI 提供了哪些能力
一个更好用的设计工作台

我们提供了一个专业的、以 AIGC 为核心的 web 端设计工作台,开箱即用,对公众免费开放使用体验。主要提供了下列功能:

  • 快速 / 专业生图MuseAI 既提供了简单易用的快速生图功能,帮助用户体验 AIGC 技术以及快速验证创意想法,也提供了功能对标 A1111/stable-diffusion- WebUI 的专业生图功能,用户可以在此做进一步的参数调整,产出能用于生产、质量稳定的设计素材。

  • 模型广场用户可以在此浏览查找满足自己需求的各类 SD 相关模型并应用在生图功能中,如果公共模型中没有满足需求的,我们还支持用户自行上传模型。

  • LoRA 模型训练平台支持通过少量图片,训练得到拥有专属风格、对象的 LoRA 模型,从而快速、稳定地满足不同业务场景的需求。相比开源社区里的各种训练器,我们重新设计了交互流程并且利用各种 AI 技术大大降低了数据准备的门槛。同时背靠弹性资源池里的高性能显卡,用户可以训练更大规格的模型。

  • 创意广场用户可以将创作出来的图片发布到公开的创意广场中和其他用户一起交流,也可以通过他人分享的图片来一键生成复现。

  • 交流社区更多的创意和想法需要在交流中碰撞激发,魔搭社区本来就提供了以模型、文章为核心的交流社区, AIGC 专区内还额外增设模型返图区、图片交流等渠道,方便用户分享经验,共同进步。

一套高性能、License 安全的
服务化解决方案

除了用户直接操作的 web 端设计工作台,MuseAI 还提供了一套将 AIGC 技术融入各个业务线,或者应用于各个业务团队内部工作流程的服务化解决方案。当设计师在平台上调出一组符合业务要求的模型、参数、流程后,平台提供了能力将这些东西封装起来,转换成一个稳定的、可复现的简单 Open API 接口,从而被各个场景按自己需要的方式集成进来。相比直接调用 sd- webUI 的 API ,或者用 diffusers 之类的库自行搭建服务等手段,我们的解决方案有下列优势:

  • 我们从底层自研了 MuseAI 的生图引擎,完全脱离了对 sd- webUI 和 diffusers 的依赖,这进一步带来了下列好处:

  • 法务安全彻底规避了 sd- webUI  AGPL 协议的法务风险,可以安全地用于公司的生产级业务中。

  • 性能优势我们能够对全链路做性能优化,底层的 cuda 算子优化、量化 / DeepCache 等弱损优化、模型权重的多级分布式缓存、请求流量的亲近性分配、在离线任务的分级队列……我们在 MuseAI 平台之下做了非常多的优化工作,并且都是正交可配置的,能充分满足不同场景的不同需求。

  • 多架构模型支持我们把模型和生图流程做了解耦,从而可以在平台上支持完全不同的基础模型,因此我们才可以非常快速地支持 SD3 模型并且让高清修复、局部重绘之类的功能完美兼容。

  • 所见即所得MuseAI 的产品页面和 Open API 最终是转换成相同的请求调用到了生图引擎上,这意味着在平台上调试出来的生图效果在生产环境可以直接复现,避免了设计和工程为最终效果来回修改调试。

  • 接口易用MuseAI 支持将调试出来的各项参数按需固定并转换成场景专用的简易 API ,任何人都可以借助平台生成下游非常容易理解和对接的接口。

这部分功能在阿里内部的平台上已经投入使用,魔搭社区 AIGC 专区会通过魔搭统一的 API  Inference 接口对外提供,这部分功能还在进行中。

MuseAI 平台核心功能介绍

下面再具体展开介绍一下平台目前已经有的核心功能。

图像创作
快速生图

仅通过简洁的描述即可迅速生成高质量图像,这一功能旨在便于快速验证创意和探索灵感。它特别适用于那些刚入门 AI 创作领域的用户,帮助他们轻松上手。该过程中,包括 prompt 生成、模型选择以及参数调整,均由大型语言模型(LLM)自动处理。我们的平台对生成图像的质量负责,并将不断迭代更新各种艺术风格及其背后的模型与参数组合。这确保了用户能够以最小的成本,快速实现他们的视觉创意,充分探索和实验他们的灵感。

专业生图

针对专业设计师,我们精心打造了一个高级的生成图形界面,旨在为设计师提供一个功能丰富、灵活多样的创作环境。具体来说,我们目前提供了下面这些功能,且还在持续迭代增加中:

  • 提供详细的 SD 相关可调参数,支持丰富的文本到图像、图像到图像生成能力。

  • 支持包括任意底模(包括最新的 Flux、SD3.5)、LoRA、vae 在内的多种模型选择和组合能力,为设计工作提供灵活性和多样性。

  • 整合了社区中流行的高清修复、ADetailer 等高级功能,使得作品细节更加精致。

  • 完善的 ControlNet 支持,极大增强了生成作品的可控制性,帮助设计师精准实现创意构想。

  • 全面发挥 AI 的潜力,提供 prompt 自动优化和辅助编写功能,以及多种模型辅助的前后处理功能,从而提高工作效率和创作的精度。

左右滑动查看更多

与 A1111/stable-diffusion- WebUI 的效果对齐

考虑到现阶段多数专业设计师对社区 sd- WebUI 的熟悉以及可能已有一些现成工作流基于 sd- WebUI ,我们在和 sd- WebUI 直接对应的功能点上做了效果的对齐,在开启各种优化的前提下和 sd- WebUI 的出图一致率可以超过 95%,保证了大量已有工作可以平滑迁移。

模型

平台非常重视模型这一 AI 创作中的核心要素,所以我们为用户提供一个强大且直观的模型管理系统。该系统的设计初衷是帮助用户高效地浏览、管理和使用各种类型的模型,无论是用户自行上传的、还是平台第一方提供的海量模型资源。下面我们会介绍一下模型广场页面以及在线训练 LoRA 功能。

模型广场

我们的模型页面旨在简化用户的操作过程和提升用户体验。页面上列出的模型覆盖了底模、LoRA、VAE 等多种类型,这保证了不同用户需求的满足。无论用户是倾向于探索新的创意,还是优化现有的项目,我们的平台都能提供所需的工具。此外,我们深知社区的力量,因此支持用户自行上传模型。这意味着用户可以轻松访问和利用其他创作者的成果,为自己的项目带来新的灵感和可能性。同时,为了保证用户能够无缝使用这些资源,我们的平台支持多种社区格式和不同版本的 SD 模型。

左右滑动查看更多

模型训练

我们精心设计了 LoRA 模型训练流程,以确保每位用户都能高效、便捷地训练出质量上乘的模型,同时消除技术门槛。我们实现了下面的功能来达到这一目的:

  • 训练用数据集的创建我们为用户提供了一个直观的界面来创建训练数据集,无论是手动上传单个图片,还是批量上传大量数据,都无需繁复的准备工作。

  • 高级预处理功能用户不必自行处理务必的预处理工作,平台提供自动抠图、tag 反推等先进功能,从而精准地准备训练数据,保障了模型训练的出众表现。

  • 智能化配置推荐基于用户的具体训练目的,我们的算法会自动生成训练图片配比建议和配置相关参数,大大降低了非专业用户对于专业知识的需求。

  • 计算资源和训练执行提交训练任务后,任务将在后端计算中心执行,那里拥有弹性调配的高性能显卡和计算资源,以最佳的性价比达成训练目标。

  • 实时监控与展示平台还为用户提供了实时的训练监控功能,包括中间阶段生成图像的展示和训练指标的实时汇总,这样用户可以随时追踪任务进展并进行必要的调整。

左右滑动查看更多

场景案例
IP 设计:阿里公益
效果展示

左右滑动查看更多

合作模式介绍

阿里公益是直接使用平台的合作模式,业务团队的高级设计师在平台上训练自己的 IP 形象 LoRA 模型,并调试好生图时的各项参数,作为一种预设参数保存下来。后续团队内的初级设计师用这组预设参数批量生成 IP 营销素材并进一步加工。该业务团队使用平台后提高了数倍的人效,业务方对此非常满意

创意概念设计:双十一猫淘大赛

效果展示

左右滑动查看更多

合作模式介绍

左右滑动查看更多

AIGC  是实现品牌资产有效曝光、形成社交裂变和品牌话题讨论度的有效方式;对于技术而言,提供一个可快速响应业务创新需求、高可定制、复用性强的 AIGC 平台至关重要。

在这样的背景下,淘天集团产技业务规划了双 11 猫淘大赛活动,用户进入玩法首页后,选择战队(猫天天战队或者淘公仔战队);之后进入创作页,填写自己的提示语,选择灵感词,叠加喜欢的主题元素,开始创作;创作后的作品发布后就会出现在作品广场,分享给其他用户进行点赞,最后根据点赞情况获得奖励。

MuseAI 团队与相应的业务团队合作,为他们提供 API 形式的定制化生图服务,通过 Diffusion 模型提供灵感与概念设计,支撑猫淘大赛生成了许多优质图片,帮助业务完成技术闭环。

教学辅助:MuseAI x 电子科技大学
AIGC 实战训练营
效果展示

左右滑动查看更多

合作模式介绍

作为“产教融合计划”的重要落地项目,中国软件行业校园招聘与实习公共服务平台联合行业头部企业共同推出了校企合作计划——“AI 赋能大学计划”全国高校行,旨在促进高校人工智能创新行动,引导高校不断提高人工智能领域科技创新和人才培养。魔搭团队、MuseAI 团队与电子科技大学联合开设了 AIGC 实战训练营。

本次训练营由电子科技大学信息与软件工程学院组织报名征集,吸引了大一至研究生近 100 名学生参与。课程依托魔搭社区的视觉生成开源模型与模型服务工具,围绕人工智能、深度学习、计算机视觉开发基础以及 MuseAI 使用流程与典型应用案例等多方面展开,指导学生开发便捷易用的 AI 视觉应用。

历经半月的深入学习与实践,学生们扎实掌握 AIGC 及生成式人工智能的应用推理、训练与部署等核心知识,具备相关应用开发技能,显著提升应对实际问题能力与团队协作综合素质,有力彰显项目实践于人才培育和能力提升的卓越成效。

MuseAI 在本次合作中主要提供讲师、平台、教学方案和相应的计算资源,赋能电子科技大学实现“AI 教学闭环”,电子科技大学的师生对 MuseAI 强大的模型训练能力和一流的生图效果十分满意。

在课程的结尾,团队为电子科技大学的同学精心设计了“表情包 LoRA 训练大赛”作为课程能力检验的评价项目,电子科技大学的同学们踊跃参加,并创作出来许多优秀的表情包 LoRA 作品,这些作品全部贡献给 ModelScope 开源社区,大家可以自由下载和使用。

结   语

随着全世界广大学者、工程师们的不懈努力,曾经遥不可及的语言生成、语音合成、图片生成等 AIGC 技术已经悄然走入到每个人的日常生活中。艺术创作是一项高门槛工作,在过去只有少数久经训练的专家才能胜任,但在当下,通过强大的 AIGC 技术,我们有机会让所有人独立创造属于自己的艺术作品。

MuseAI 会长期致力于推进 AIGC 技术的落地,我们的研究方向包容 AIGC 的一切。我们坚信 AIGC 会彻底改变每个人的日常生活,让一切创造性工作变得触手可及,希望志同道合的朋友联系我们,与我们共创 AIGC 的美好未来!

会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178308
 
38 次点击