“架构师成长计划”第二季｜AI规模化应用时代的深度学习平台构建

以深度学习为代表的AI技术在过去十年中取得了跨越式的发展，在围棋、游戏、生物计算等领域取得重要突破，深度学习技术以其标准化、自动化、模块化的特性，正在推进AI进入到规模化应用的时代。

Gartner发布的《2022年人工智能技术成熟度曲线》报告显示，按发展周期分析，智能应用（AI applications）已进入稳步爬升期，距离生产成熟期只有2-5年的时间窗口。

人工智能只有实现规模化应用，才能真正作用于各行各业的自动化生产力提升、服务升级或是催生重大的创新。而要想完成这一目标就需要构建满足更大规模应用的深度学习平台，因此也对AI基础平台框架、算力提供方同时提出了挑战。深度学习平台如何实现架构创新？面对不同行业的场景需求，平台又该适配哪些性能？

Science与英特尔联袂推出的“架构师成长计划”第二季系列课程，为您带来第十期——《AI规模化应用时代的深度学习平台构建》。本期课程邀请了百度飞桨总架构师于佃海、英特尔超大规模云计算软件架构总监魏彬、智东西联合创始人/总编辑张国仁共同探讨深度学习平台的发展与实践，为相关领域的架构师们答疑解惑。

深度学习平台构建两大准则：提升性能，降低门槛

尽管算力、算法和数据是支撑人工智能发展的三大要素，在产业应用苛刻的环境下，它们也可能成为负担。能否在相克相济中找到深度学习平台的创新升级之路？来自百度飞桨的讲师于佃海在本期课程中做了分享：

深度学习产业发展所遇瓶颈及破解之道

人工智能技术已广泛渗透进经济生产活动的主要环节，AI规模化应用正在发生。于佃海将如今AI产业化遇到的困难与瓶颈归纳为“三大”和“三多”，其中“三大”即：深度学习的成功得益于大数据、大模型、大算力，但在产业应用中它们也会变为负担；如何更低成本地实现更高效的计算是非常现实的需求。

从模型的开发训练到推理部署，深度学习应用这一过程中又面临着“三多”，即应用场景多、模型算法多、硬件芯片多等问题；如何全面降低产业应用的门槛，变得非常关键。

基于自监督学习的预训练大模型通用性强，只需少量参数即可实现迁移学习，但是大模型的参数量越来越大。深度学习平台作为共性平台，其重要性愈发突显，它下接芯片、上承应用，提供从开发训练到推理部署的全流程支撑，相当于智能时代的操作系统。

“一升一降”，深度学习平台的架构创新

飞桨是一个源于百度产业实践的开源深度学习平台，针对深度学习产业应用的痛点，百度飞桨认为可以从两方面出发优化架构：一方面提升平台性能，强化训练和部署能力；一方面降低使用门槛，以助于AI技术在广泛产业中实现落地。

为实现这“一升一降”的目标，平台可以从数据、模型、算力三要素入手，全面协同优化。所谓“协同优化”是指优化其中一要素时需考量另两大要素的影响。例如，对于数据的优化也要考虑模型的问题；给模型提供高效的数据预处理工具；也要从硬件的视角考虑数据处理。

从提升性能角度看，需要结合深度学习算法的特点和算力的特性，通过框架实现最终的高效计算。飞桨针对高性能学习计算的需求，提供了整套解决方案，这包括数据读取与预处理、模型实现、高性能算子、分布式策略、端到端的异步执行调度，在不同环节上解决挑战给出优化方案。

高效的分布式训练能力对于大模型来说尤为重要。面对多设备的分布式深度学习计算的场景，飞桨提出了端到端自适应的分布式架构，它可以自动感知异构硬件的特性和模型的特性，实现最优的并行策略的自动选择，并实现自动优化，最终达到高效的弹性执行。

从降低应用门槛来看，百度研发了大数据加知识增强的文心系列预训练大模型，用户可以基于大模型作为预训练的通用模型底座，极大地降低了具体任务的应用成本。

此外，百度飞桨还构建了产业级开源模型库，包括核心框架、基础模型库、开发套件、工具组件和开发平台在内的产业级深度学习平台，通过全栈平台来全面降低AI产业应用的门槛。

AI人才培养和生态建设

除了技术层面的优化，以深度学习主导的AI规模化应用也需要人才培养和构建完善的生态。

百度飞桨在构建过程中非常注重AI人才培养和生态建设，例如建立AI学习与适应社区——AI Studio，目前它已经云集200多万的AI开发者，积累了400万的实训项目，为架构师们提供了一个开放的交流平台。

在生态建设方面，硬件生态的提升关系到应用落地部署以及性能优化等诸多环节。百度飞桨与英特尔在核心框架、模型库、业务应用层面实现了全栈合作，覆盖了从开发训练到推理部署、安全加密等各个环节，支持广泛业务应用的优化和落地。

英特尔分享：软硬融合引领全栈AI架构发展

随着规模化产业应用时代的到来，AI应用在智慧城市、智慧金融、智能汽车等场景使用量和开发量得到明显提升，由此带来的算力需求也快速增长。

本期课程讲师魏彬分享了英特尔如何通过软硬融合来引领全栈AI的架构发展。从英特尔的AI全景图可以看出，英特尔是从硬件和软件两个方面发力来加速AI的应用落地。

在硬件方面，英特尔拥有多种AI加速方案，从通用计算的CPU到GPU、FPGA、ASIC，提供全方位的硬件支持。
在工具层面，英特尔进行了大量的软件投入，从各个框架到性能库去做优化，并向业内发布了150多个容器镜像，使广大开发者能够更容易地使用这些AI能力。
在应用层面，英特尔不断累积成功的案例经验以总结一站式的AI方案，目前已有200多种AI方案可以分享给更多行业用户。

软硬协同加速AI应用，降低落地门槛是英特尔一贯坚持的方法论。通过软件生态的打造，英特尔期望看到更多的合作伙伴能够利用这些工具、高性能库和框架，达到业务快速落地的需求。

以与飞桨合作为例，英特尔与飞桨构建的是在核心框架、模型库、业务应用上的全栈合作，应用场景辐射到工业、交通、能源、医疗、金融、农业各行业。

魏彬也谈到，软件的助力可以帮助硬件发挥算力价值最大化，例如数据中心级CPU里面内嵌的AI加速功能。

早在第二代至强^®（Xeon）可扩展处理器Cascade Lake中，英特尔就集成了整个VNNI的指令用以支持加速INT8的数据类型；第三代至强^®可扩展处理器Ice Lake做了BF16数据支持；即将发布的新一代至强^®可扩展处理器Sapphire Rapids中，AMX（Advanced Matrix Extensions）进一步扩展了内置AI加速功能，同时可以支持INT8和BF16数据，最高可达8倍性能升。软件的配合使得不断进化的硬件性能得以充分发挥。

嘉宾对话：软硬融合引领全栈AI架构发展

交流碰撞火花，沟通启迪灵感。本期嘉宾会话环节中，主持人张国仁和两位嘉宾于佃海、魏彬的讨论围绕“AI规模化应用时代的深度学习平台构建”展开，就中国AI规模化应用未来还需克服哪些方面的困难交流了观点。

于佃海：第一个问题是关于门槛和效果，AI技术和平台的提供方缺乏对产业的足够认知；第二个是成本和效率的问题，期待打造出更加理想的、AI软硬协同的平台和架构；第三，是需要进一步拓展AI能力边界的问题。

魏彬：行业的挑战目前存在的一大门槛是落地期间，整个解决方案非常复杂。我有两点思考，一是平台如何支持广大的开发者在不同的硬件平台上做开发；二是如何把生态构建得更好，通过大家更紧密的合作，不断地在行业产生更具体的优化场景，深入到行业里去看到需求。

张国仁：AI应用环境的改善是需要从软硬件层面持续不断去优化创新的，同时更需要构建完善的生态。越是有困难有挑战的地方，越是需要合作与联手的地方，越是行业里面看不清需求的地方，越需要一起去探索。

除此之外，在AI进入规模化应用的阶段，哪些场景可以迅速实现落地？对于应用AI的企业，在选择深度学习平台和算力方案时，需要着重考量哪些因素？

欲了解更多精彩内容和技术细节，请观看“架构师成长计划”第二季第十期的完整课程。

大咖寄语——致年轻的架构师们

于佃海：把握时代的机遇，跨上AI的战车，以融合创新创造更大的价值。

魏彬：在AI规模化应用的时代，希望架构师们能够在软硬融合、全栈AI优化的道路上持续创新，赋能加速AI产业的应用落地。

张国仁：架构中国，创新未来。

点击此处“阅读原文”观看完整课程