社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

天工3.0正式开放!4000亿参数MoE开源,开启音乐生成ChatGPT时刻

智东西 • 6 月前 • 153 次点击  

▲头图由天工AI生成

中国首个音乐AIGC SOTA模型,综合评分超越Suno V3。
作者 |  香草
编辑 |  漠影
智东西4月17日报道,昆仑万维今日重磅推出4000亿参数开源大模型天工3.0,其采用MoE(混合专家模型)架构,相比2个月前的天工2.0,逻辑推理、语义理解、复杂需求应对、内容创作等4大核心能力大幅提升。
天工3.0新增了图表对比生成、研究模式、增强模式、扩图修图等功能,并针对性地训练了模型的Agent能力,使得模型能够“独立思考”,规划、拆解用户需求,完成复杂任务。
同时,基于天工3.0打造的天工SkyMusic也是中国首个音乐AIGC SOTA(领域最佳水准),其采用音乐音频领域Sora模型架构,是国内唯一公开可用的音乐生成大模型
天工SkyMusic大幅降低了音乐创作门槛,虽然仍处于起步阶段,但其已经在音乐生成领域取得了不错的效果。4月初开启邀测后,天工SkyMusic后台提交测试申请的人次超百万。

▲广场舞神曲版《再别康桥》(来源:智东西)

天工3.0大模型的发布,代表了昆仑万维“All in AGI与AIGC”战略路径上的又一里程碑时刻。功力大增的天工3.0大模型,到底有多好用?能在哪些方面显著提升生产力?智东西第一时间体验了天工3.0。

01.
全球最大开源MoE模型
4000亿参数、4大核心能力升级


天工3.0参数规模达到4000亿级,是全球最大规模的开源MoE大模型。相较于上一代,天工3.0的模型技术知识能力提升超过20%,数学、推理、代码、文创能力提升超过30%。

▲天工3.0成为全球最大开源MoE大模型

天工3.0基座大模型在逻辑推理能力、语义理解能力、应对复杂需求能力和内容创作能力4个方面大幅提升。作为多模态大模型,天工3.0集成了AI搜索、AI写作、AI长文本阅读、AI图片生成、AI音乐生成等功能,在MMBench等多项权威多模态测评结果中超越GPT-4V

▲天工3.0多模态性能超越GPT-4V

基于模型能力的提升,天工3.0还新增了多轮搜索及综合工具调用、AI搜索研究模式、AI搜索增强模式等功能,可以高效地完成产业分析、产品对比等各类复杂需求。
研究模式 中,天工3.0能够围绕简单指令进行相关问题的延伸,自动生成研究大纲、图谱、实践总结、思维导图等。
例如,我让天工3.0研究“OpenAI发展历程”。在全网搜索后,它能以分段提炼等形式呈现搜索结果,并自动总结大纲、绘制思维导图。


▲天工3.0总结OpenAI发展历程(图源:智东西)

增强模式中,天工3.0能够针对用户的复杂Query进行拆解、细化,通过追问、信息理解与补全,使其在自然语义理解方面性能更强,更好地面对不确定性知识。
比如我输入了提示词“2024年科技圈”,这个需求的难度是比较大,会包含多种细分需求的提示词。天工3.0能立即意识到这个问题并进一步追问,它还贴心地提供了行业发展趋势、产品市场规模、投资环境等方向选择。在我选择“发展趋势”后,它基于联网获取的资料很快给出了包含AI、AIoT、新能源等趋势信息的回答。

▲天工3.0增强模式(来源:智东西,视频有加速)

基于多轮搜索及综合工具调用功能,天工3.0可以将用户任务拆解成细分环节,实时判断是否需要联网或调用工具,进行单轮或多轮的联网搜索、工具调用。
联网当然要考察最新的时事热点,我决定问问天工3.0“成都迪士尼”最近为什么这么火,天工3.0随即准确地解释了这个梗的来源及事件经过。然后我跳转话题,问“迪士尼游玩攻略”,天工3.0联系上下文,给出了成都的出行攻略。改成问上海迪士尼的天气也完全没问题,通过调用天气组件工具,天工3.0能够直接给出近几日上海的天气预报。

▲天工3.0多轮搜索及综合工具调用功能(图源:智东西)

在图像生成方面,天工3.0的改图扩图能力取得突破,可以让它绘制一张风景图,并逐步在图中增加新的物品或元素:

▲天工3.0图像绘制(图源:智东西)

对于用户而言,天工3.0不仅适用于产业分析、市场研究、产品对比、知识管理等工作场景,也适用于内容创作、教育培训、智能搜索、语音合成、图像和音乐生成等娱乐场景。
学生党、打工人可以利用天工3.0的研究模式和增强模式,通过简单的查询获得全面而精炼的资料,文献搜集、资料汇总等所需的时间大幅缩短,提升工作学习效率。
内容创作者可以利用天工3.0的AI音乐生成、AI语音、AI图像生成等功能,提高创作效率和质量,同时创作门槛降低,人人都可以成为“作曲家”、“插画师”。
此外,在ToB领域,企业用户也可以利用天工大模型构建专属Agent,实现专属知识库,实现自动调用制定工具、完成复杂指令遵循Agent构建等,提升工作效率、优化决策过程、增强产品和服务的竞争力。

02.
国内首个音乐AIGC SOTA
秒级生成80秒歌曲、人声“以假乱真”


近期,海外的音乐生成产品Suno、Udio爆火,AI音乐生成领域受到了前所未有的关注。但这些产品面向海外市场设计,对于国内用户而言有一定的使用门槛。
基于天工3.0打造的天工SkyMusic,不仅是目前国内唯一公开可用的AI音乐生成大模型,而且在人声&BGM音质、人声自然度、发音可懂度等性能方面,以6.65分的综合得分超越Suno V3,成为全球AI音乐SOTA模型

▲天工SkyMusic综合性能超越Suno V3

天工SkyMusic可以生成80秒44100Hz采样率双声道立体声歌曲,支持生成说唱、民谣、放克、古风、电子等多种音乐风格,还能学习颤音、歌剧、吟唱、男女对唱、自动和声等歌唱技巧。
此外,天工SkyMusic还拥有独创的参考音乐生成方言歌曲生成能力。用户可上传或选取现有的参考音乐,生成与之风格、唱腔类似的歌曲,进一步降低了使用门槛;也可以生成粤语、成都话、北京话等方言,传播地域文化。
其使用方法也非常简便,用户只需下载天工APP,填写歌词或使用AI生成歌词,再选择或上传一首参考歌曲,点击“生成”即可在不到半分钟的时间内生成音乐,并且每首歌都提供三个版本可供选择。
基于天工SkyMusic的SOTA能力和情感表达优势,你可以为自己喜欢的古诗词配上旋律:

▲抒情版《长恨歌》(来源:智东西)

这首《长恨歌》是我用徐佳莹的歌曲《身骑白马》作为参考生成的,天工SkyMusic生成的音乐在伴奏上层层递进,在旋律上也体现出了主歌和副歌的段落差异。
也可以将网络热梗改编成说唱版:

说唱版网络热梗(来源:智东西)

这段话是近期网络上比较火的“加密文学”,参考音乐是天工官方提供的一则说唱指南。作为“音乐小白”,我对说唱歌曲中的Verse、Flow等专业术语了解并不多,但能听出来这个AI嘴皮子确实挺快(Doge)。
如果不想选择现有的歌词,可以通过AI生成歌词功能,让AI为你续写。以下是我用AI生成的关于“不想上班”的文案,基于“土味神曲”《5:20AM》生成一首新歌:

▲AI创作土摇版歌曲(来源:智东西)

方言歌曲生成能力方面,智东西选取了陈奕迅经典粤语歌《富士山下》的歌词,以周杰伦的《青花瓷》作为参考曲目输入,生成了这首具有国风特色的青花瓷版《富士山下》:

青花瓷版富士山下(来源:智东西)

如此逼真的人声“以假乱真”能力,以及高度还原音乐风格等各种环节的可控性,天工SkyMusic是如何做到的?
据了解,现有AI音乐大模型企业普遍没有公开自己的技术路径,因此没有可借鉴和参考的开源音乐大模型。昆仑万维在技术路径探索上做了非常多的尝试,花费了大量研发资源,最终摸索出下图这条路:

▲天工SkyMusic技术原理图(图源:昆仑万维)

在AI音乐生成领域,有两大技术路径,符号派与大模型派。天工SkyMusic选择了难度更大、效果更好的大模型音乐音频生成路线
在音频生成路径上,又有三个细分领域:Song、BGM、Speech。过去很多AI音乐研究都集中在无人声的BGM领域,有人声的Song赛道几乎没有好的解决方案。而天工SkyMusic,就是在Song领域取得了极大突破,大幅提高了AI音乐生成技术在Song领域的模型表现,开创了音频生成大模型的成功案例。
具体来说,天工SkyMusic采用与Sora类似的模型架构,包含三大核心模块——EncoderDiT(Diffusion Transformer)和Decoder。其中,Large-scale Transformer负责谱曲,学习Music Patches的上下文依赖关系,同时完成音乐可控性;DiT负责演唱,通过LDM(Latent Diffusion Model)让Music Patches被还原成高质量音频。
从上述案例及跟Suno V3的横评中可以看出,相比海外其他AI音乐大模型,天工SkyMusic在AI人声合成的细腻度、可识别度上表现优秀,咬字发音,并且支持粤语、成都话等方言语种。
虽然尚处于起步阶段,但天工SkyMusic已经让很多用户感受到了音乐创作的乐趣。同时,昆仑万维选择将宝贵的技术架构公开,也体现了其对开源社区生态、产业共同发展的重视。

03.
构建六大AI业务矩阵
国内首推AI搜索、AI音乐产品


大模型狂飙500天,如何将其能力落地到应用产品仍是困扰众多AI厂商的难题。大模型杀手级应用何时出现?
昆仑万维董事长兼CEO方汉告诉智东西,C端+免费可能成为大模型落地的主要路径。在互联网时代,美国的谷歌、微软,国内的百度、阿里等都是靠这个逻辑成为互联网巨头,同样的道理也将延伸到大模型时代。
一方面,C端用户上限高达80亿;另一方面,订阅模式门槛高,用户接受程度相对较低。而要做到免费,AI UGC(用户生产内容)平台是一个好的商业模式。
根据风投机构a16z上月发布的生成式AI产品Top 100报告,ChatGPT、Gemini等通用内容生产应用仍占据消费级AI应用大头。与6个月前的排名相比,有两个新类别首次进入排行:音乐生产力
Suno是唯一进入排行的音乐生成产品,这表明音乐生产工具逐渐闯入消费者视野,成为下一个有潜力的C端应用落地路径。而生产力类别上榜7款产品,包括写作、视频摘要、搜索引擎、文章总结等领域。
这与昆仑万维的产品布局路径不谋而合。
2023年4月,昆仑万维提出“All in AGI和AIGC”战略,不局限于单一的产品或技术,而是构建一个完整的AI生态系统,逐步了形成AI大模型、AI搜索、AI音乐、AI社交、AI游戏、AI视频六大业务矩阵。
其中,AI大模型和AI搜索作为底座,是所有AIGC能力的基础,音乐、视频、社交、游戏等方向则是昆仑万维在AGI道路上的探索,体现了其AI UGC平台商业模式。
2023年8月,昆仑万维推出国内第一款AI搜索产品——“天工AI搜索”,深度融合AI大模型能力,通过人性化、智能化的方式,为用户提供快速、可靠的交互式搜索服务,助推传统搜索跨越式迈入AI时代。
本月初,昆仑万维推出国内第一款AI音乐生成产品——“天工SkyMusic”,采用音乐音频领域类Sora模型架构,支持生成80秒44100Hz采样率双声道立体声歌曲,降低了音乐创作门槛,人人都可以用音乐来表达情感。
昆仑万维为何能够在国内市场两次首发国内第一款AI细分应用创意新品?
这离不开其前瞻性的战略布局、深厚的技术积累、强大的研发实力以及对市场需求的敏锐洞察。
昆仑万维从2020年开始布局AIGC和大模型领域,至今已积累近四年的相关工程研发经验,且研发投入巨大。据其2023年第三季度报告,公司前三季度研发费用达到6.2亿元,同比增长28.18%。同时,公司十分重视开源生态,天工大模型在开发过程中也得到了开源社区上百位AI科学家的助力。
此外,昆仑万维对市场需求有着敏锐的洞察力,看到了AI技术在搜索引擎、音乐创作等场景的巨大潜力。自2023年4月发布天工大模型之后,团队就开始了大模型与搜索引擎的融合尝试,并于同年8月推出中国首款AI搜索产品——天工AI搜索。天工SkyMusic则体现了昆仑天工探索研究的一个重要方向——情感AGI。

04.
结语:All in AGI与AIGC
昆仑万维交出最新答卷


随着天工3.0大模型的开源公测,我们见证了昆仑万维AI技术的又一里程碑。
天工3.0以其4000亿参数的MoE架构,不仅在逻辑推理、语义理解等核心能力上实现了飞跃,更在多模态领域展现了其强大的应用潜力。天工SkyMusic的成功推出,更是将音乐创作的门槛降至新的低点,让每个人都能轻松玩音乐。
昆仑万维“All in AGI与AIGC”的战略布局,在展现了对未来技术趋势前瞻性的同时,彰显了其在AI领域的雄心壮志。我们期待看到更多优秀的国产大模型及AIGC产品,通过在迈向AGI的道路上各种创新探索,为更多行业及人们日常生活带来改变。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)

2024年中国生成式AI大会预告



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/169122
 
153 次点击