Py学习  »  机器学习算法

站在开源拐点,深度学习框架亟需一场价值重估

夕小瑶科技说 • 4 周前 • 35 次点击  

这两年,大家的目光几乎被“大模型”三个字牢牢吸住了,谁超越了谁、榜单排名第一,少有人关注模型之外的东西。

直到 Deepseek 用非常低的成本训练出能和 OpenAI 媲美的模型,这一下子“打醒”了很多人——

原来在大模型进化的路上,不是光靠“买卡堆料”、“卷模型参数”就能一路狂奔的。

再加上,前段时间 DeepSeek 还放出了一些技术杀手锏,开源了很多底层技术,让很多人回过神儿来——

除了模型本身,还有太多重要的拼图,比如训练推理的效率、高效的框架、适配的硬件等等,缺一不可。

终于,近期的关注点开始回归到深度学习领域的经典四层架构了——

大模型之下,是深度学习框架层。

在如今推理类模型横行的时代下,“Test-time Scaling Law”的红利显然还没有被压榨殆尽,如何让大模型“吐字”更快一点,就能有望让模型的智能程度再高一点。

至此,深度学习框架的重要性被放大了,亟需一场价值重估。

大模型动辄几千亿的参数,一个深度学习框架能否在同等的算力下,尽可能的缩短模型训练时间的同时保住训练效果?

推理时,能否在降低延迟、提升吞吐的情况下稳住计算精度?

部署时,能否轻松的适配公司的硬件设施,发挥出硬件最大性能?

这些问题,都是深度学习框架被日渐放大的价值。

因为,大模型的这些工程化难题,都藏在了深度学习框架里。

大模型时代,框架的使命感

最近,笔者发现了一组比较惊人的数字——

百度深度学习框架「飞桨」适配 DeepSeek-R1 后,据官方测试,其 FP8 推理的单机每秒输出 token 数,可以达到 1000+,如果是 INT4 比特部署的话,每秒输出 token 数甚至可达 2000 以上。

相比主流的方案 vLLM FP8 和 SGLang FP8,分别快了 37.2% 和 111.4% 。

而在 WINT4 的极致性能下,比 vLLM FP8 快约 176.2%,比 SGLang FP8 快约 325.7%

还有一组来自飞桨官方公众号的数字——

“吞吐提升 144%”、“解码速度提升 42%”、“首 token 推理速度提升 37%”。

这里先简单解释一下解码速度和吞吐两个概念。

解码速度:指的是模型在推理时生成 Token 的速度,也是如今推理类模型实现推理阶段 scaling law 的重要关注指标。

吞吐:指单位时间内模型能处理的整体输出量,代表并发场景下的总处理能力。

举个例子。你在一家餐厅点餐,解码速度就像厨师炒一道菜的速度(比如每分钟炒 10 盘菜)。而吞吐则是餐厅一小时能服务多少盘菜(考虑所有厨师和订单)。

  • 在解码速度不变(单次生成效率没变)的情况下,吞吐提升 144%,说明系统整体效率大幅提高,这对高并发场景特别重要,能服务更多用户。
  • 吞吐接近,说明系统整体处理能力没怎么变,但解码速度提升 42%,意味着单次生成任务的响应更快了。这对实时性要求高的场景很关键,用户会明显感觉到“模型反应更快了”。
  • Prefill 是大模型推理的初始阶段,长序列的 Prefill 阶段通常很耗时,因为注意力计算量随序列长度平方增长。首 Token 推理速度提升 37%,用户等待时间更短。这对长文本处理(比如总结长文章、处理法律文档)特别有帮助。

这背后,是最新的飞桨框架3.0

可以这么理解,飞桨框架3.0 就是 为大模型量身定制的深度学习框架。

前段时间 DeepSeek 开源周,第一天炸场的就是 FlashMLA,被认为是目前业内最优的大模型推理方案之一。

飞桨为了把 DeepSeek R1 的推理性能压榨到极致,对 MLA 算子进行了多级流水线编排、精细的寄存器及共享内存分配优化。

通过深度调优 MLA 算子,性能比 FlashMLA 领先 4%~23%。

不仅仅是为 DeepSeek R1 这样的开源模型量身定制了一套高效推理方案,飞桨框架3.0更可以让模型性能“更上一层楼”。

要说以前的大模型项目如何落地,我只能说什么花样都有。

过去,闭源模型时代,大模型的效果和落地方案往往被捆绑销售,企业很难自由选择最优组合。

但现在,一切都不一样了,大模型终于重回开源生态主导

DeepSeek 开源技术搭配飞桨框架3.0 的“王炸组合”,让开发者既能用上顶尖模型,又能享受极致推理效率,还能轻松适配 A800 等非 Hopper 架构硬件。

灵活性和普适性,正是深度学习框架的使命所在。

承载这个使命的国货之光,我觉得「百度飞桨」是当仁不让的。这里有必要展开科普。

模型要“追新求变”,框架得“厚积求稳”

作为一个从 2016 年就开源的国产老牌框架,飞桨可以说是国内寥寥无几的能经受的住 AI 发展史严苛检验的深度学习框架。

模型要“追新求变”,但框架一定要“厚积求稳”。

  飞桨框架3.0 正式版刚刚正式发布。

从它的设计理念图就能看出来——

充分考虑大模型分布式训练和推理性能。

比如,动静统一自动并行便是为了支撑大模型分布式训练而生。

你可以这样理解,在飞桨框架中,开发者只需要写单机代码,做一些简单的“张量切分标注”,飞桨就能自动帮开发者切分数据、安排通信,优化显存和调度,找到最省力的分布式并行策略。

为开发者省掉了大量的分布式性能优化工作,而且自动支持 MoE(混合专家模型)、Dense 等多种模型架构。

比如用飞桨训练 Llama 模型,通过这个黑科技,核心代码量直接砍掉 50%。

“编译器自动优化”技术,可以将多个算子融合成一个大算子,通过减少访存量和算子数量,能够大幅提升模型性能。

比如,Llama 2 和 Stable Diffusion 模型,仅通过编译器自动优化技术,就得到了超过 30% 的推理性能提升

通过神经网络编译器优化、算子深度调优这些黑科技,可以说,飞桨框架把硬件性能榨得干干净净。对 MLA 算子的调优后,甚至比 DeepSeek 的 FlashMLA 还要快 4%~23%。

要知道,DeepSeek 这次开源的很多技术都只是针对 H 卡做的,做了很多专用优化。而飞桨,作为一个通用的深度学习框架,却能在垂直问题上,做到比专用框架更强的性能表现,我只能说——

牛逼。

再比如训推一体,简单理解就是训练和推理用同一套“剧本”,不用分开写两套代码。

既可以在训练阶段使用动态计算图来实现模型高效调试迭代,又可以在部署阶段自动将其转换至静态图,实现训练和推理的能力复用。

深度学习框架最大的魅力就是通用性

保持通用性的同时,还能有超越专用设计的性能表现,是一件极其困难的事情。没有充分硬核的技术积淀,是很难做到的。

飞桨不仅做到了,还联合 24 家伙伴发布飞桨生态发行版,并且进一步将昆仑芯、海光、寒武纪、昇腾、燧原 5 家国产硬件纳入飞桨例行发版体系。

甚至,联合芯片企业制定了国家标准,设计了近 90 个接口,各家的芯片都可以直接用这个标准化的方式接进来,不会再受制于硬件差异

大模型,不是孤立的“模型之争”,而是系统化的“能力之战”。这种“够老够稳”的底蕴,我觉得正是大模型落地所需的坚实后盾。

在这场综合的 效率、实用、生态的变革中,飞桨的含金量在上升。

结语

当大模型竞赛进入下半场,文心 4.5、Qwen、DeepSeek 的这一大波开源浪潮,让大模型重回开源生态主导

正如上文提到的飞桨框架3.0 带给 DeepSeek R1 的性能突破,提醒我们:参数只是表像,深耕底层的 Infra 建设,是可以真正让大模型转化为可持续的生产力。

框架真正的价值是通用性。既能灵活应对 Dense、MoE 等各类模型结构的优化迭代,也能屏蔽掉部署阶段繁杂的硬件优化适配细节。

而且在中国 AI 产业算力异构化(昆仑、海光、昇腾、寒武纪等等)、场景碎片化的背景下,国产框架正在进化出更顽强的技术韧性,其含金量在持续上升,成为 AI 生态的支撑性关键软件。

飞桨深度学习框架,是时候被重新审视、价值重估了。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/180634
 
35 次点击