社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

深度学习效率进展的细致指南

专知 • 2 月前 • 62 次点击  

本文提供了从效率角度出发的深度学习进展的全面时间顺序指南:涵盖了集群、独立硬件、深度学习库、编译器,甚至架构的变化。本文并非一篇综述论文,旨在为读者提供对该领域的广泛直观理解——在过去 40 年中涌现的每一个细节都不可能全部涵盖。

前言:在过去十年中,深度学习领域蓬勃发展,发展到无论是研究人员还是学生都很难跟踪其动态的程度。有时,我甚至发现自己难以把握该领域的实际方向。在这个常常显得飘忽不定的领域,许多方法和结果在实际中显得差强人意,我希望至少对我们当前所处的进展有一个概念。

我希望以叙述的形式写这篇文章——1)使其对读者易于理解,而不是信息过载;2)让读者从宏观视角审视该领域,并理解其演变轨迹。我尽量以论文为中心(类似于 Lilian Weng 风格的博客!),并包含了我认为适当的标志性(或酷炫)作品;如果读者觉得需要包含或修改某些内容,请随时告知!在开始之前,让我先列出一些相关的数字,以帮助大家更好地了解即将讨论的进展。对于不熟悉这些数字的朋友,我也添加了一些说明。

  • NVIDIA 最新的 Blackwell B200 GPU 估计售价为 3 万至 4 万美元。
  • 对于 FP8,它的性能可达约 4500 TeraFLOPS,性能非常惊人!
  • 它配备了 192GB 的高带宽内存/DRAM,这是主要的 GPU 内存。
  • Llama 3.1 405B,Meta 最新的开源语言模型,参数量达 4050 亿(约 800GB)。
  • 它的训练使用了高达 16000 张 NVIDIA H100(位于 24000 GPU 集群上)。
  • 它的训练数据集包含了 15 万亿个 token。




专知便捷查看,访问下面网址或点击最底端“阅读原文”

https://www.zhuanzhi.ai/vip/5da99f83ff5d7bc23003d35043d6f964

点击“阅读原文”,查看下载本文

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/175523
 
62 次点击