社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

对话Nvidia黄仁勋:机器学习不仅是关于软件,而是涉及整个数据管道;机器学习的飞轮效应是最重要的

DataFunTalk • 2 月前 • 79 次点击  

转自 | Z Potentials

导读 将所有人类思维视为一次性完成的想法有些荒谬。因此,必须存在快速思考和慢速思考、推理、反思、迭代和模拟等概念,而这一切现在都在逐渐显现出来。
机器学习并非人类编程。机器学习不仅仅是关于软件,而是涉及整个数据管道。实际上,机器学习的飞轮效应是最重要的。人工智能将随着时间推移,拥有一条能力的发展路线图,这条路线图将是相当引人注目的。

仅仅拥有开源模型并不意味着你已经拥有了AI。开源模型的存在是为了推动AI的创造,使得金融服务、医疗保健、交通运输等各个行业和科学领域都能因此而受益。

全文目录:

1. Nvidia的技术创新与竞争壁垒

2. 推理需求增强后Nvidia的计算架构规划

3. OpenAI作为合作伙伴的重要性

4. 马斯克十万卡超级集群

5. 谈OpenAI o1模型

6. 人力工作与AI的关系

7. AI安全的必要性与挑战

8. 英伟达的开源模型Nemotron

图片来源:Bg2 Pod

01

Nvidia的技术创新与竞争壁垒

Brad: 今天是10月4日,星期五,我们在Nvidia总部。感谢大家的到来。我们将在周一举行年度投资者会议,讨论人工智能的各种影响,以及我们如何快速提升智能。我想不到有谁比您更合适来开场,您既是我们的股东,又是我们的思想伙伴,能够进行思想的碰撞,确实让我们变得更加聪明,我们对这份友谊心存感激。感谢您能来这里。

黄仁勋: Happy to be here.

Brad: 您知道,今年的主题是“将智能扩展到AGI”。令人难以置信的是,当我们在两年前进行这个讨论时,那是在ChatGPT发布的两个月前,主题是“人工智能的时代”。想想这一切变化,我觉得我们可以通过一个思维实验和一个预测来开启这个讨论。

如果我通俗地认为AGI是我口袋里的个人助手,那么我就会觉得AGI是我习惯的那种助手。确切地说,它对我了如指掌,有着完美的记忆,能够与我沟通,可以为我预订酒店或医生预约。考虑到当今世界变化的速度,您认为我们何时能够拥有这个口袋里的个人助手呢?

黄仁勋:很快就会以某种形式出现。这个助手会随着时间的推移不断变得更好,这就是我们所了解的高端技术。我认为,最初它会相当有用,但并不完美。随着时间的推移,它会变得越来越完善,就像所有技术一样。

Brad:当我们观察变化的速度时,我记得埃隆·马斯克曾说过,唯一真正重要的就是变化的速度。我们确实感受到变化的速度显著加快,这可能是我们在这些问题上所见过的最快的变化速度。因为我们在人工智能领域已经走过了十年之久,而您甚至更久。您认为这是您职业生涯中见过的最快变化速度吗?

黄仁勋:这是因为我们重新定义了计算方式。这一切的发生是因为我们在十年间将计算的边际成本降低了100,000倍。而摩尔定律大约是100倍。我们通过几种方式实现了这一点。首先,我们引入了加速计算,将在CPU上效率不高的工作转移到GPU上。我们发明了新的数值精度,开发了新的架构,创造了张量核心。系统的构造方式也在不断演变,MV Link引入了极其快速的内存,HP和PM在MV、Lincoln Infinite等方面进行了规模化开发,并在整个技术栈上协同工作。可以说,我所描述的Nvidia的所有做法,导致了超越摩尔定律的创新速度。

现在,真正令人惊叹的是,正是因为这些进展,我们从人工编程转向了机器学习。机器学习的一个惊人之处在于,它的学习速度非常快。随着我们重新构建计算的分配方式,我们进行了各种类型的并行处理,比如张量并行和流水线并行。我们在此基础上不断发明新算法和新训练方法,这一切技术和发明相互叠加,形成了一个合力。

在过去,如果我们观察摩尔定律的运作方式,软件是静态的,通常是预编译的、像缩小的木筏一样被放入商店,它是固定不变的。而底层硬件则以摩尔定律的速度增长。现在,我们看到整个技术栈都在创新,整体增长。因此,我们突然间看到了异常的扩展。然而,我们曾经讨论的是预训练模型和该层面的扩展,以及我们如何将模型大小翻倍,同时相应地将数据规模翻倍。结果是,所需的计算能力每年增加了四倍。这在当时是个大事。然而,现在我们看到的是后训练的扩展以及推理的扩展,对吗?人们过去认为预训练很难,而推理很简单。现在一切都变得困难了,这其实是合理的。将所有人类思维视为一次性完成的想法有些荒谬。因此,必须存在快速思考和慢速思考、推理、反思、迭代和模拟等概念,而这一切现在都在逐渐显现出来。

Bill:我认为,关于Nvidia,有一个常被误解的观点,就是Nvidia的竞争壁垒有多深。外界似乎普遍认为,只要有人发明了一个新的、更好的芯片,他们就赢了。但实际上,过去十年里Nvidia一直在构建完整的技术栈,从GPU到CPU,再到网络,尤其是软件和库,使得应用程序能够在Nvidia平台上运行。因此,我相信您已经提到了这一点,但当您考虑到今天Nvidia的竞争壁垒时,您认为与三到四年前相比,Nvidia的竞争壁垒是更大还是更小呢?

黄仁勋:我很感激你认识到计算方式的变化。事实上,许多人之所以认为设计一个更好的芯片就意味着它拥有更多的浮点运算能力、更多的翻转和计算,这种观点仍然存在。他们的主题演讲幻灯片上面展示了各种浮点和计算,以及柱状图等。这些确实很重要。

然而,不幸的是,这种思维方式是片面的。它是在某种程度上认为软件只是一个在Windows上运行的应用程序,并且软件是静态的,这意味着您提升系统性能的最佳方式就是不断制造更快的芯片。但我们意识到,机器学习并非人类编程。机器学习不仅仅是关于软件,而是涉及整个数据管道。实际上,机器学习的飞轮效应是最重要的。那么要如何看待在一方面支持这个飞轮效应,同时又让数据科学家和研究人员在这个飞轮中提高生产力呢?这个飞轮其实在最初就开始了,很多人甚至没有意识到,AI必须进行数据策划来教会AI,而且这个AI本身就相当复杂。

Brad: 人工智能本身也在不断改进吗?它也在加速发展吗?不过当我们考虑竞争优势时,这确实是所有这些因素的组合。

黄仁勋:正是如此,这正是我想要谈论的,因为更智能的AI可以对数据进行策划。现在我们甚至有合成数据生成和各种不同的数据策划方式,呈现数据。因此,在进行训练之前就已经需要进行大量的数据处理。人们常常认为,哦,PyTorch是世界的开始与结束,这非常重要。但别忘了PyTorch之前和之后的工作量。而飞轮效应的关键在于,你必须思考如何设计计算系统和计算架构,以帮助您最大限度地发挥这个飞轮的效力。这不是一个统一的应用程序训练步骤,这只是其中一步,这个飞轮的每一个步骤都是困难的。

因此,你应该做的第一件事不是思考如何让Excel更快,这些都是过去的思维。现在,你必须考虑如何加速这个飞轮。这个飞轮包含许多不同的步骤,而机器学习并不是那么简单的,正如OpenAI、X公司以及DeepMind团队所做的事情都不是简单的。因此,你真正应该考虑的是整个过程或是你想加速的每一个部分。如若你遵守摩尔定律,就会发现摩尔定律会表明,如果某事件占用了30%的时间,而我加速了三倍,那么我并没有真正大幅加速整个过程。因为只有在完成整个过程的情况下,你才能真正显著改善循环时间,而这个飞轮的学习速度实际上是导致指数增长的根本原因。

因此,我想表达的是,你对公司所做事情的看法将反映在产品中。请注意,我一直在谈论这个飞轮,整个系统的设计。没错,我们在加速一切。

目前主要的focus是视频。许多人关注物理AI和视频处理。想象一下前端,进入系统的数据以每秒数TB的速度传输。以pipeline为例,让这个pipeline接收所有数据,并为训练做好准备。是的,整个流程都可以加速。

Bill:人们今天只关注文本模型,但未来将出现视频模型,以及利用一些文本模型来处理大量数据的模型。

黄仁勋:没错,语言模型将会在所有领域存在。然而,训练一个语言模型,特别是这些大型语言模型,花费了行业巨大的技术和努力。不过现在我们在每一个步骤中都在使用大型语言模型,这实在是令人惊叹。

Brad:我并不想对此过于简单化,但我们经常从投资者那里听到类似的问题:“是的,但定制ASIC怎么办?是的,他们的竞争优势会被撼动。”

我听到你所说的是,在一个组合系统中,优势会随着时间的推移而增长。你提到,我们今天的竞争优势比三四年前更强,因为我们在不断改善每一个组成部分。这种组合优势意味着,当你考虑例如Intel这样的商业案例时,他们在产业链中的主导地位相对于你现在的位置是显而易见的。也许我们可以再简单一点,比较一下你当前的竞争优势与他们在巅峰周期时的竞争优势之间的异同。

黄仁勋:Intel非常出色,因为他们可能是第一家在制造工艺和工艺工程方面表现出色的公司。他们很擅长制造这一环节,涉及到芯片的设计和架构,特别是x86架构,以及不断生产更快的x86芯片的这些内容会被他们与制造相结合。

我们公司略有不同,我们意识到,实际上平行处理并不要求每个晶体管都达到卓越水平,而串行处理则要求每个晶体管都非常优秀。平行处理需要大量晶体管以提高成本效益。我宁愿拥有十倍的晶体管,速度慢20%,也不愿意只有十倍更少的晶体管,但速度快20%。这样的理解对Intel来说正好相反。因此,单线程性能和单线程处理与平行处理是非常不同的。我们知道,我们的世界并不是追求单一方面的卓越,而是追求多方面的提升。

平行计算和平行处理是困难的,因为每一个算法都需要不同的方式来重构和重新架构,以适应不同的架构。人们常常没有意识到,即使有三种不同的CPU,它们都有各自的C编译器。软件可以编译为这些架构的形式,但在加速计算和并行计算中,这并不可行。提出架构的公司必须开发自己的OpenGL库。因此,我们通过我们的领域特定库cuDNN彻底改变了深度学习。如果没有cuDNN,没人会谈论cuDNN,因为它位于PyTorch和TensorFlow之下,早期还有Caffe和Theano,现在是Triton,市面上有许多不同的框架。因此,这个领域特定库cuDNN,以及名为OptiX的领域特定库,和名为CUDA Rapids的领域特定库,都是我们创新的重要组成部分。

Brad:对于位于PyTorch层之下的行业特定算法,大家的关注点常常集中在这些应用上,我们常听到有人这样说

黄仁勋:如果大型语言模型没有被发明,那么在其之上的任何应用都无法正常工作。因此,真正让Nvidia卓越的,是其算法的数学基础。我们在架构之上与科学之间的传播与融合方面表现出色,这正是我们的强项。
02

推理需求增强后Nvidia的计算架构规划

Bill:如今,大家对推理的关注度越来越高,终于引起了重视。但我记得,两年前,Brad和我与你共进晚餐时,曾问过你一个问题:你认为你的竞争优势在推理方面会和在训练中一样强大吗?

黄仁勋:我不太确定我是否说过这会更强。

Bill:你刚才提到的许多要素都是相关的,比如不同组件之间的可组合性,以及我们在某个时刻对整体组合的了解。对客户而言,能够在不同组件之间灵活切换是非常重要的。这是正确的。那么,能否请你谈谈,如今我们已经进入了推理时代的情况?

黄仁勋:推理训练是在这种规模上的推理。你说得对。如果训练得好,推理的效果通常也会不错,前提是它基于这种架构构建而成。即使没有任何考虑,它也会在这个架构上运行。你仍然可以针对其他架构进行优化,但至少,由于它已经基于Nvidia构建,所以它将能够在Nvidia上运行。

当然,另一个方面就是资本投资。训练新模型时,你希望使用最佳的新设备进行训练,而这就会留下之前使用的设备,而这些设备非常适合推理。因此,随着新基础设施的更新,旧设备留下的“遗产”可以继续使用,形成了一条“免费的设备”路径。我们非常注重确保整个系统的兼容性,这样我们留下的所有设备都能保持卓越的性能。

我们还投入大量精力不断重新发明新的算法,这样当时机来临时,Hopper架构的性能将比最初购买时提高2到4倍。因此,这些基础设施将继续保持高效。我们所做的所有工作,无论是改进新的算法,还是新的框架,都能惠及我们所有的安装基础。Hopper架构对此有益,Ampere架构对此有益,甚至Volta架构也因此受益。

我记得Sam刚刚告诉我,他们最近刚刚撤下了OpenAI使用的Volta基础设施。因此,我们留下的这条安装基础,就像所有计算设备的安装基础一样重要。Nvidia的产品几乎覆盖了所有云环境,包括本地部署和边缘设备。因此,在云端创建的Vision Language Model(视觉语言模型)能够在边缘设备上的机器人上完美运行,无需任何修改。这种架构的兼容性对大型项目非常重要,与iPhone或其他设备没有什么不同。我认为安装基础对于推理至关重要。

而我们真正受益的地方在于,我们在新架构上训练这些大型语言模型,能够思考如何在未来创造出优秀的推理架构。因此,我们一直在思考如何为这种个人助手创建交互式推理体验。你不希望说完话后让它思考很久,而是希望它能迅速与你互动。那么我们该如何创造这样的系统呢?最终的成果就是NV Link。这样,我们可以将这些在训练中表现优秀的系统转化为出色的推理性能。

因此,我们希望优化“首次响应时间”。实际上,想要实现首次响应时间非常困难,因为这需要大量的bandwidth。如果上下文丰富,就需要大量的浮点运算能力。因此,在实现几毫秒的响应时间时,你需要同时具备无限的带宽和浮点运算能力。这种架构非常复杂,因此我们为此发明了Grace Blackwell和NV Link。

Brad:我记得我之前和Andy Jassie共进晚餐。早些时候和他见面时,Andy提到,我们即将推出Tranium和Infrencia。我想大多数人将这些视为Nvidia的挑战,但他接着说,Nvidia是我们一个重要的合作伙伴,并将在可预见的未来继续保持这种重要的合作关系。

世界是由Nvidia驱动的,对吧?所以当你考虑正在打造的定制ASIC,这些ASIC将针对特定应用,比如Meta的推理加速器,或者亚马逊的训练,甚至谷歌的TPU时,再加上你现在面临的供应短缺,这些因素会改变这种动态吗?还是说它们只是对你们所有系统的补充?

黄仁勋:我们正在做不同的事情,我们试图实现不同的目标。Nvidia现在的目标是为这个新世界——这个机器学习的世界、生成性人工智能的世界以及智能体人工智能的世界——构建一个计算平台。我们希望创建一个,经过60年的计算发展的新的整个的计算架构。从编程到机器学习的软件编写方式,从CPU到GPU的软件处理方式,从软件到人工智能的应用程序,以及从软件工具到人工智能的转变,每个计算堆栈和技术堆栈的各个方面都发生了变化。

我们想要创建一个随处可用的计算平台。而这正是我们工作的复杂性所在。如果你想象一下我们所做的事情,我们正在建立一个完整的AI基础设施,我们将其视为一台计算机。我之前曾说过,数据中心现在是计算的基本单元。对我来说,当我想到计算机时,我并不是在考虑那颗芯片,而是我心中的这种模型,以及所有的软件、所有的编排和其中的机械设备,这就是我的使命,这就是我的计算机。

我们每年都在尝试构建一个新的计算平台。是的,这简直疯狂,过去从未有人这样做过。我们每年都在努力推出全新的计算平台,并且每年都能交付两到三倍的性能。因此,我们每年都能将成本降低两到三倍,每年都能提高两到三倍的能效。我们告诉客户,不要一次性购买所有设备,而是每年购买一点。这是因为我们希望他们能够对未来进行成本平均化,所有这些都是在架构上兼容的。

单独建立这样的系统,以我们目前的速度进行,是极其困难的。而更难的部分在于,我们将所有这些不仅作为基础设施或服务出售,而是将其解构,并整合到Google Cloud Platform(GCP)、AWS、Azure等平台中。这样做的逻辑是,大家的集成都不同。我们必须将我们的所有架构库、所有算法和所有框架整合到他们的系统中。我们将我们的安全系统集成到他们的系统中,并将我们的网络集成到他们的网络中。这样,我们实际上每年需要进行大约10次集成。这就是我们为什么能够做到的奇迹所在。

Brad:我认为,每年都在尝试实现这样的目标简直是疯狂。那么是什么驱动你每年都这样做呢?与此相关的是,Clark刚从台北、韩国和日本回来,与所有供应合作伙伴会面,而你与这些合作伙伴的关系已经持续了十多年。这些关系对构建竞争壁垒的组合数学有多重要呢?

黄仁勋:当你系统性地分析这个问题时,你们的分析越深入,大家就会越惊讶。是的,究竟是什么让今天整个电子生态系统致力于与我们合作,最终构建出这个计算机立方体,并将其整合到不同的生态系统中呢?协调工作如此顺畅显然不是偶然的。我们在此过程中传递了API、方法论和业务流程,同时也向前推动了架构和API。

Brad:这些API经过几十年的完善和坚固化。

黄仁勋:是的几十年,随着时间的推移不断的演变。但是,这些API必须汇聚在一起,对吧?当时机成熟时,所有在台湾以及全球各地制造的组件都会聚集到Azure的数据中心。在那里,它们将会被整合在一起,被不断点击

Bill:有人只需调用OpenAI的API,它就能正常工作。

黄仁勋:这确实有点疯狂,对吧?这就是我们所创造的庞大计算基础设施。整个地球都在与我们合作,它已经集成到各个地方。无论是通过戴尔销售,还是通过HPE销售,它都可以在云中托管,甚至延伸到边缘计算。人们现在在机器人系统、自驾车等领域使用它,所有这些系统在架构上都是兼容的,这真是令人难以置信的成就。

Brad:这太疯狂了。

黄仁勋:我的意思是,当我们真正探讨基础的问题时,可以认为我们正在做的事情与众不同。作为一家公司,我们希望保持环境意识。我非常清楚公司及其生态系统周围发生的一切。我知道有些人正在进行替代性的工作,有时这些工作与我们存在竞争关系,有时则不是。我对此非常关注,但这并不改变公司的宗旨。

公司的唯一目标是构建一个可以无处不在的平台。这就是我们的目标。我们并不想从任何人那里夺取市场份额,英伟达是市场的创造者,而不是市场份额的攫取者。如果你查看我们公司的幻灯片,里面从未提到过市场份额。我们讨论的全是如何创造下一个产品,我们可以解决的下一个问题,以及如何更好地为人们服务。我们如何将过去需要一年的飞轮转动时间缩短到一个月?我们在思考这些不同的事情,但我们绝对清楚我们的使命非常明确。唯一的问题是这个使命是否有必要。这理解吗?

所有伟大的公司都应该将这个问题放在核心:你在做什么?肯定的,唯一的问题是:它是否必要?它是否有价值?它是否有影响力?它是否能帮助人们?

我相信,作为开发者的你们,作为一家生成性人工智能初创公司,正在考虑如何成为一家企业。你们不需要纠结的一个选择是:我该支持哪一个ASIC?如果你只支持CUDA,你就可以走向任何地方,随时可以改变主意。我们是进入人工智能世界的入口,对吧?一旦你决定加入我们的平台,其他的决策可以暂时搁置。你总是可以在以后建立自己的ASIC。我们对此不反对,也不在意。

当我们与GCP、Azure等合作时,我们会提前数年向他们展示我们的路线图。而他们从不向我们展示他们的基本路线图,这一点也不会让我们感到冒犯。这理解吗?我们创造了一个生态系统。如果你的目标明确,使命有意义,并且对你和其他人都非常重要,那么你就可以保持透明。请注意,我的路线图在GTC上是透明的。我的路线图对我们在Azure、AWS等朋友的内容更为详细。即使他们正在构建自己的ASIC,我们对此也毫无顾虑。

Brad:我认为,当人们观察这个行业时,你最近提到对Blackwell的需求“疯狂”。你表示,工作中最艰难的部分之一就是在这个计算能力短缺的世界中,对人们说“不”所带来的情感负担。然而,批评者们却说,这不过是2000年Cisco时期的重演,那时他们在过度建设光纤,最终导致了繁荣与萧条的循环。我想起2023年初我们一起用餐时的情景。当时对英伟达在2023年的收入预测为260亿美元,而最终你们实现了600亿美元,对吧?

黄仁勋:我们必须承认,这绝对是历史上最重大的预测失误之一。我们能否至少对此达成共识?我刚刚才意识到这对我来说是一个重要的启示。

Brad: 这是我们在2022年11月时感到非常激动的原因,因为我们接待了像Mustafa这样的访客,他来自Inflection,还有Character的代表,他们来我们办公室讨论投资他们的公司。他们说,如果你们无法在投资我们的公司上做出合理的决策,那么就买入Nvidia,因为全世界都在争相获取Nvidia的芯片,来构建那些将改变世界的应用程序。显然,随着ChatGPT的出现,'寒武纪时刻'来临。然而,尽管有这一事实,那25位分析师却过于专注于加密货币的寒冬,以至于无法想象世界正在发生的变化。

结果,实际情况要大得多。你用非常简单的语言表达了对Blackwell的需求是“疯狂的”,而且这种情况在你所能看到的未来很可能会持续。当然,未来是未知且不可预测的。但批评者为何如此错误,认为这不会成为2000年Cisco式的过度建设情况呢?

黄仁勋:思考未来的最佳方式是从基本原则出发,对吗?那么,对于我们正在做的事情,基本原则是什么呢?首先,我们正在做的第一件事是重新定义计算,对吧?我们刚才提到,未来的计算方式将高度依赖机器学习。是的,几乎我们所做的每一件事情,几乎每个应用程序,无论是Word、Excel、PowerPoint、Photoshop,还是Premiere、AutoCAD,你告诉我你最喜欢的应用程序,过去的所有这些都是手工开发的,而我可以保证,未来它们将高度依赖机器学习。所有这些工具都是如此,此外,您还将拥有机器agent来帮助您使用这些工具。

现在我们可以肯定这一点,对吗?我们已经重新定义了计算,无法回头。整个计算技术栈正在被重新构建。那么,在我们这样做之后,我们就要认识到软件将会有所不同。软件所能编写的内容将会不同,我们使用软件的方式也将不同。所以让我们承认这一点。这就是我的基本真理。

所以真正的问题是接下来会发生什么?让我们回过头来看看过去的计算方式。我们在过去拥有1万亿美元的计算机。如果您打开数据中心的大门,看一看那些计算机,你会发现它们是您希望承担未来计算任务的计算机吗?答案是否定的。那里有这么多CPU,我们知道它们能做什么、不能做什么。我们知道,我们有1万亿美元的数据中心需要进行现代化。因此,现在,假设我们在接下来的四到五年内对这些旧设备进行现代化改造,这并不是不合理的。

Brad:这是一个合理的观点。那么,我们有这个趋势,而你正在与那些需要进行现代化改造的人进行对话,他们正在使用GPU进行现代化。

黄仁勋:没错。我们再做一个假设。如果您有500亿美元的资本支出,选择A(未来的资本支出),还是选择B(过去的资本支出)?您现在已经拥有了过去的资本支出,对吧?是的,那些支出就在那里。它们也不会变得更好,摩尔定律基本上已经结束。那么,为什么还要重建那些呢?不如将这500亿美元投入到生成式AI中。

所以,现在公司变得更好了。那么,你会把这500亿美元中的多少投入进去呢?我会把100%的500亿美元投入进去,因为我已经有四年的基础设施作为基础。那是过去的部分。因此,我只是从基本原则的角度思考问题,这就是他们正在做的事情。聪明的人在做聪明的事情。

接下来,第二部分是这样的。

现在我们有价值1万亿美元的产能。去建设价值1万亿美元的基础设施,投入大约1500亿美元。那么,我们在接下来的四到五年内将建设1万亿美元的基础设施。我们观察到的第二点是,软件的编写方式有所不同,软件的使用方式也将有所不同。

在未来,我们将拥有数字agent。在您的邮箱里,您会看到这些小点和小图标。未来,这些将意味着低级AI的图标,对吗?我将会发送它们。

我不再用C++来编程计算机,而是用提示来编程AI,是吗?这与我今天早上与团队的交流没有什么不同。我在来这里之前写了一些邮件,我在给我的团队发出提示,当然是这样。我会描述上下文,描述我所知道的基本约束,并为他们设定任务。我会提供足够的方向性,以便他们明白我的需求。我希望尽可能清晰地阐明结果,但我也留出足够的模糊空间,让他们有创造性的发挥。这与我今天如何提示AI是完全一致的。

因此,在我们现代化的基础设施之上,将会有一层新的基础设施。这种新基础设施将是AI工厂,运营这些数字人,并且它们将每天24h,一周七天持续运作。我们将在全球各地的所有公司中拥有它们,我们将在工厂中、在自主系统中使用它们,对吗?

所以,世界必须构建一整层计算基础设施,我称之为AI工厂,而这在今天根本不存在。那么,问题是,这有多大呢?目前无法确定,可能是几万亿美元,对吧?我现在并不确切知道。但在我们坐在这里建设时,值得注意的是,这种新数据中心的架构与AI工厂的架构是相同的,这是很美妙的。

Brad:您已经明确了,您有价值1万亿美元的旧资产需要现代化,同时还将有大约1万亿美元的新AI工作负载涌现出来。你今年的收入大约是1250亿美元。曾经有人告诉您,公司的市值永远不会超过10亿美元。今天,你坐在这里,有没有任何理由认为你的收入未来不会达到当前的2倍或3倍?

黄仁勋:没有。正如您所知,这一切都与公司规模有关。公司通常仅限于其市场规模,就像金鱼池一样,金鱼的体型有限。那么,问题是我们的“鱼池”是什么?这需要很大的想象力。这也是为什么市场创造者能想到未来,而不必通过创建新的鱼池来考虑过去的原因。试图从过去的市场中分享市场份额是很困难的。您知道,分享者的增长空间是有限的,而市场创造者则可以有更大的空间。

我认为我们公司的幸运之处在于,自公司成立之初,我们就必须发明市场,以便我们能够在其中畅游。人们可能没有意识到这一点,但我们当时处于创造3D游戏PC市场的“零点”。我们在很大程度上发明了这个市场,以及整个生态系统和显卡生态系统。因此,发明一个新的市场以便将来服务它,对于我们来说是非常自然的。

03

OpenAI作为合作伙伴的重要性

Brad:确实,谈到一个已经创造了新市场的人,让我们稍微转变一下话题,聊聊模型。正如您所知,OpenAI本周筹集了65亿美元的资金,估值达到了1500亿美元。我们都参与了这次融资。

黄仁勋:我非常高兴他们能够顺利完成这笔融资,团队做得非常出色。

Brad:据报道,他们今年的收入或运行收入将达到约50亿美元,明年可能会增长到100亿美元。如果我们看看目前的业务,其收入大约是谷歌在首次公开募股时的两倍。他们每周平均用户达到了2.5亿,估计是谷歌首次公开募股时用户数量的两倍。如果我们认为明年能够达到100亿美元的收入,那就意味着它的市盈率大约是15倍,这与谷歌和Meta在首次公开募股时的市盈率相当。考虑到22个月前他们的收入和每周平均用户都是零,在这种背景下,谈谈OpenAI作为合作伙伴的重要性,以及OpenAI在推动公众对AI的认知和使用方面所起的作用。

黄仁勋:这是我们时代最具影响力的公司之一,专注于追求AGI愿景的纯粹人工智能公司。无论AGI的定义是什么,我认为这并不重要;我也不相信时间节点是关键。我所知道的一点是,人工智能将随着时间推移,拥有一条能力的发展路线图,这条路线图将是相当引人注目的。而在达到任何人对AGI定义之前,我们就会充分利用这一技术。

只需现在就去和数字生物学家、气候科技研究人员、材料研究者、物理科学家、天体物理学家、量子化学家交谈;去问视频游戏设计师、制造工程师、机器人专家。选择你喜欢的领域,深入其中,与那些重要的人交谈,询问他们:人工智能是否已经彻底改变了他们的工作方式?收集这些数据后,你就可以问自己:你想保持多大的怀疑态度?

因为他们并不是在谈论人工智能作为一种概念上的好处,而是正在谈论如何实时使用人工智能。无论是农业科技、材料科技还是气候科技,选择任何技术或科学领域,人工智能都在推动他们的进步。

正如我们所见,每个行业、每家公司、每所高校,人工智能正在以难以置信的方式改变商业运作。这一点是显而易见的,它确实在发生。而且,我认为ChatGPT引发的人工智能觉醒是完全令人震惊的。我欣赏他们在推动这一领域发展方面所展现的速度和单一目标,这都是非常重要的。

Brad:他们建立了可以为下一代模型融资的经济引擎。现在,在硅谷越来越多的人达成共识,认为整个模型层的商品化,特别是像Llama这样的模型,使得许多人能够以非常低廉的成本构建模型。因此,早期我们见到了许多模型公司,如Character、Inflection和Cohere等。然而,很多人质疑这些公司是否能够建立起经济引擎的逃逸速度,以继续资助下一代技术的发展。

我个人的看法是,这也是我们看到整合现象的原因。OpenAI显然已经达到了这种逃逸速度,能够自我融资,然而我并不确定许多其他公司是否具备这样的能力。这是否是对模型层现状的一个合理评估?我们会看到像许多其他市场一样的整合,出现能够负担得起、拥有经济引擎和应用能力的市场领导者,以便他们能够继续投资。

黄仁勋:你必须了解taxonomy的分类。在taxonomy的每一层都会有机会,但并不是每一层都有无限的机会。我刚才提到的内容可以用“GPU”来替代“模型”。实际上,这正是我们公司32年前所做的伟大观察:GPU与加速计算之间存在根本差异。加速计算与我们在AI基础设施中所做的工作是不同的,虽然它们是相关的,但并不完全相同,且是建立在彼此之上的。每一层抽象都需要根本不同的技能。

一个擅长构建GPU的人可能完全不知道如何成为一家加速计算公司。我可以举例,有很多人制作GPU,但我不确定他们中的哪一个最早参与了这个行业。我们发明了GPU,但我们并不是今天唯一一家制造GPU的公司,对吧?现在GPU无处不在,但并不是所有的GPU都能加速计算。还有很多人从事应用加速,但这与加速计算公司是不同的。因此,例如,一个非常专业化的AI应用确实可能是一个非常成功的项目,对吧?

Brad:这就是MTIA(多种技术与市场互动的复杂性)。

黄仁勋:没错,但这可能不是那种能够带来广泛影响力和能力的公司,因此你必须决定你想要处于哪个位置。各个领域可能都有机会,但在建立公司时,你必须注意生态系统的变化,以及随着时间推移什么会被商品化,清楚地认识到什么是特性、什么是产品,当然还有什么是公司。我刚刚又想了一遍,这里有很多不同的思考方式。
04

马斯克十万卡超级集群

Brad:有一家新进入者具备资金、智慧和雄心,那就是X dot AI。关于你、Larry and Elon共进晚餐的报道也在流传,他们说服你投资十万台H100。之后,他们在孟菲斯花费几个月的时间建立了一个大型的高效超级集群。

黄仁勋:要指出的是,三点不一定能形成一条线。

Brad:你如何看待他们建立这个超级集群的能力?外界有传言说他们希望再获得十万台H2,以扩大这个超级集群的规模。首先,请谈谈X及其雄心和已取得的成就;其次,我们是否已经进入了拥有20万到30万GPU集群的时代?

黄仁勋:答案是肯定的。首先,必须承认他们的成就。从概念到数据中心的建设,再到设备安装到位,直到我们启用并完成第一次训练,这一切都得到了极大的认可。

仅仅在短时间内建造一个庞大的液冷工厂,获得能源和许可,便完成了这一切,这真是超乎寻常的能力。就我所知,全球只有一个人能够做到这一点。Elon在工程、建设大型系统和调动资源方面具有独特的理解,这一点令人难以置信。此外,他的工程团队也非常出色。软件团队、网络团队和基础设施团队都非常优秀。埃隆对此有着深刻的理解。

从我们决定启动项目之初,经过与工程团队、网络团队、基础设施计算团队和软件团队的规划、准备,以及所有后续基础设施、物流的安排,这其中所涉及的技术和设备在当天到位,包括视频基础设施和计算基础设施等,为了在19天内完成训练,大家几乎是24小时不眠不休地工作,这一切都是非常艰难的。你知道吗,真的有人是不睡觉的在工作。

Brad:每天24h的工作强度都没人睡觉吗?

黄仁勋: 毫无疑问,没人睡觉。首先,19天的时间确实令人难以置信。但如果我们稍微退一步思考一下,19天到底意味着什么?这可是短短几周的时间。你如果亲眼看到所涉及的技术,会感到难以置信。所有的布线和网络连接,网络NVIDIA设备的方式与超大规模数据中心的布线截然不同。连接到一个节点的电缆数量庞大,计算机背部满是电缆,想要将这堆技术整合到一起并顺利运行,尤其是软件的集成,这都是一项惊人的工作。

我认为,Elon和X团队所取得的成就是前所未有的。我非常感激他对我们与他合作的工程工作和规划工作的认可。他们所完成的事情是独一无二的,前所未有。为了更好地理解这一点,十万台GPU意味着,这是地球上速度最快的超级计算机,构成一个集群。通常,构建这样一台超级计算机需要三年的规划时间,然后再交付设备,通常还要一年才能使其完全运转。而他们在19天内就完成了这一切。

Bill:NVIDIA平台的优势在于其整个流程已经成熟稳定。

黄仁勋:没错,所有的系统都已经运行良好。此外,还有许多X算法、X框架和X堆栈等相关内容。虽然我们需要进行大量的集成工作,但前期的规划工作十分卓越。

Brad:你提到的“独一无二”的概念,Elon确实是一个独特的存在。你回答这个问题时,可以直接说,200,000到300,000 GPU的集群已经存在。那么,是否能扩展到500,000个?是否能扩展到一百万个?而且,你对产品的需求是否依赖于它们能够扩展到两百万个?

黄仁勋:最后那部分并不是我的看法。我的感觉是,分布式训练将会发挥作用,我认为分布式计算将会被创造出来。某种形式的联邦学习以及异步分布式计算将会被发现。

我对此感到非常乐观和兴奋。需要认识到的是,以前的规模法则主要关注预训练,而现在我们已经进入多模态、合成数据生成等领域,以后训练的规模现在也显著提升。合成数据生成、基于奖励系统的强化学习,以及推理的规模都已经大幅增长。模型在给出答案之前,可能已经进行了内部推理数万次,这并没有不合理。它可能进行了tree search,进行了强化学习,甚至进行了模拟,肯定进行了大量反思,查阅了一些数据和信息,对吧?因此,它的上下文可能相当广泛。

这种智能,正是我们所追求的。这种能力的提升,我刚刚计算过,与模型大小和计算能力每年增长4倍相结合。与此同时,需求也在持续增长。我们是否认为需要数百万个GPU?毫无疑问,这是肯定的。那么问题是,我们该如何从数据中心的角度进行架构?这与数据中心的规模密切相关,是否是以千瓦级别还是以每次250兆瓦的方式进行。我认为,最终我们会得到这两者的结合。

Bill:我认为分析师总是专注于当前的架构投资,但我认为这次对话的一个重要启示是,你在考虑整个生态系统以及许多未来的趋势。因此,Nvidia不仅仅是为了应对500,000个、甚至一百万个GPU集群的世界而进行扩展,而是为了迎接未来而进行的扩展。到分布式训练成熟时,你用已经编写了相应的软件来支持这一切。

黄仁勋:没错,想想看,没有我们七年前开发的Megatron,这些大型训练工作的扩展将不会如此顺利。因此,我们发明了Megatron,发明了NVIDIA GPU Direct,所有这些与DMA的工作使得Easily能够实现流水线并行。所有的模型并行性、分布式训练的突破、批处理等,都是因为我们进行了早期的工作,而现在我们正在为下一代做早期准备。
05

谈OpenAI o1模型

Brad:那么我们来谈谈Strawberry和o1吧。首先,我觉得他们用o1命名签证这件事很酷,对吧?这是一种招聘世界上最优秀人才的方式,将他们带到美国。这是我们都非常热衷的事情。因此,我喜欢这样的想法:构建一个思维模型,并将其推向智能的下一个扩展水平,这实际上是对那些通过移民来到美国的人们的致敬。他们的集体智慧成就了我们现在的样子。

你知道,这项工作是由我们的朋友Noah Brown主导的。显然,他在Meta工作时曾在Imperibus和Cicero工作。那么,推理时间的推理作为一种全新的智能扩展向量,跟单纯构建更大模型是完全不同的,这有多重要呢?

黄仁勋:这非常重要。许多智能无法事先完成。实际上,即使是大量计算也无法重新排序。比如,超前执行可以事先处理,但很多事情只能在运行时完成。

无论是从计算机科学的角度看,还是从智能的角度看,过多的智能需求都需要上下文环境。具体情况、所需答案的质量和类型都会影响结果。有时快速的答案就足够了,这取决于答案的影响程度,以及答案的使用性质。有些答案可能需要一个晚上,有些则可能需要一周。

我完全可以想象,我向我的AI发送一个提示,告诉它“思考一夜”。我不希望它立即告诉我结果,而是希望它过夜思考,明天再回来告诉我最佳答案并为我解释。因此,从产品的角度来看,智能的质量和细分将会有所不同。有些答案可以是一锤子买卖,而有些可能需要五分钟的思考时间。

Brad:你知道,智能层将这些问题路由到合适的模型,以适应特定的用例。我们昨晚在预览高级语音模型时,我在辅导我儿子准备他的AP历史考试。就像有世界上最好的AP历史老师坐在你旁边,帮助你思考这些问题,这真是太非凡了。这又回到了你提到的,目前超过40%的收入来自推理,而推理即将因为推理链的出现而大幅增长。

黄仁勋:它即将增长到十亿倍,对吧?

Brad:是的,增长到一百万倍,也就是十亿倍。

黄仁勋:这是大多数人尚未完全内化的部分。这是我们所谈论的行业,但这实际上是工业革命。

Brad:这是智能的生产。所以大家都非常关注Nvidia,认为它主要是在进行更大模型的训练。实际上,如果今天的收入是50,未来你们的推理收入将会更高。虽然训练始终很重要,但推理的增长将会远远超过我们对训练的期望,几乎难以想象其他情况。

黄仁勋:是的,我们希望如此。这是去学校的意义。是的,但目标是为了让你将来能够在社会中有所作为。因此,训练这些模型固然重要,但目标是要让它们发挥作用。

Brad你们是否已经在自己的业务中使用推理链以及像0.1这样的工具来改善业务?

黄仁勋:我们的网络安全系统今天无法在没有我们自己的agent的情况下运行。我们有agent帮助设计芯片。Hopper项目的成功离不开它。Blackwell的实现也是如此,Ruben更是不可想象。我们拥有数字化的AI芯片设计师、AI软件工程师、AI验证工程师,所有这些都是我们内部构建的,因为我们具备这个能力,并且我们确实利用这个机会来探索这项技术。

Brad:当我今天走进大楼时,有人向我提到,Ash Jensen说“文化是关键”,一切都与文化有关。我看着这项业务,我们经常谈论适应性和效率,扁平化的组织结构能够快速执行,更小的团队。你知道,Nvidia确实是独一无二的,每位员工大约创造400万美元的收入,每位员工大约创造200万美元的利润或自由现金流,你们建立了一种高效的文化,真正释放了创造力、创新、所有权和责任感。你们打破了传统职能管理的模式。每个人都喜欢谈论你所有的直接下属。利用AI是否是继续让你们保持高度创造力,同时又高效的关键?

黄仁勋:毫无疑问是这样的。Nvidia今天有32,000名员工,我们在以色列有4,000个家庭,我希望他们一切安好。我希望Nvidia有朝一日会成为一家拥有50,000名员工的公司,并配备1亿个AI助手。每个团队里都有它们。我们将拥有一个AI目录,这些AI在做事方面都非常出色。我们的邮箱里也会满是我们知道的、在某些专业领域非常严格的AI目录。

因此,AI将招募其他AI来解决问题。AI将会在Slack频道中互相沟通,也会与人类互动。这样,我们就可以组成一个庞大的员工队伍,有些是数字化和AI的,有些是生物的。我希望其中一些甚至是机电一体化的。

06

人力工作与AI的关系

Brad:我认为,从商业角度来看,这往往是被大大误解的。你刚才描述了一家公司,它的产出相当于一支拥有15万名员工的公司,但你们是用5万人来完成的。没错,你并没有说要裁掉所有员工。你仍在增加公司的员工数量,但该组织的产出将显著增加。

黄仁勋:这往往被误解了。AI并不是要取代所有工作,而是AI将对人们如何看待工作产生深远的影响。我们必须承认这一点,AI有潜力带来巨大的好处,但也有可能带来危害,我们必须构建安全的AI,这一点是基础。

被忽视的部分是,当公司通过人工智能变得更具生产力时,这通常表现为更好的收益、更好的增长,或者两者兼具。当这种情况发生时,CEO的下一封电子邮件很可能不是一封裁员通知。

Brad:当然,因为公司在增长。

黄仁勋:是的,原因是我们有更多的想法可以探索,并且我们需要人来帮助我们在自动化之前理清思路。当然,AI可以帮助我们实现自动化,也能够帮助我们思考问题,但仍然需要我们去弄清楚我们想要解决哪些问题。有无数的问题等待解决,公司必须去选择那些最重要的问题,找到自动化和扩展的方式。

因此,随着我们变得更具生产力,我们将雇用更多的人,人们往往忘记了这一点。如果你回顾历史,会很明显的发现,如今我们有比200年前更多的想法,这就是GDP更高、更多人就业的原因,尽管我们在背后进行了疯狂的自动化。

Brad:这是一个非常重要的观点,尤其在我们即将进入的这个时期,几乎所有的人类生产力和繁荣都是过去200年自动化和技术发展的产物。

你可以从Adam Smith和Schumpeter的“创造性破坏”理论中找到依据,看看过去200年里人均GDP的增长曲线,它已经在加速。这就引出了我的问题。

如果你看看90年代,美国的生产力增长大约是每年2.5%到3%。然后进入2000年代,下降到了大约1.8%。过去10年是我们记录以来生产力增长最慢的时期。这指的是我们在固定的劳动力和资本下的产出量,实际上是有记录以来最慢的。

许多人对这一现象的原因展开了讨论。但如果如你所描述的那样,未来我们将利用和制造智能,那么这是否意味着我们正处于人类生产力大幅扩张的边缘?

黄仁勋: 这是我们的希望,我们生活在这个世界上,所以我们对此有直接的证据。无论是个别的研究人员,现在通过AI可以以令人难以置信的规模探索科学,这就是生产力,这百分之百是生产力的体现,或者说我们在以极快的速度设计出如此令人惊叹的芯片。而且我们正在构建的芯片和计算机的复杂性呈指数增长,而公司的员工人数却没有同比增长——这也是生产力的衡量标准。

我们开发的软件也越来越好,因为我们使用AI和超级计算机来帮助我们。然而,员工数量几乎只是在线性增长。好的,这又是生产力的一个体现。

所以,不论是在哪个行业,我都可以进行检查。我自己也可以直觉地验证这些。是的,你说的对,这就是业务的体现。而当然,我们不能过度拟合,但艺术性的部分在于如何去泛化我们观察到的现象,并判断这种现象是否会在其他行业中出现。

毫无疑问,智能是世界上最有价值的资源,而现在我们要大规模制造它。我们所有人都必须学会如何应对,当你被这些AI包围时,它们做得如此出色,远远超越了你时,应该怎么办?回想一下,这其实就是我的生活。我有60名直接下属。他们之所以在我的管理团队中,是因为他们在各自的领域中都是世界级的,做得比我好得多,远远超越我。我与他们互动没有任何问题,提示他们做事也没有问题。我与他们进行编程也毫无障碍。

所以我认为人们将要学会的是,他们都会成为AI agent的CEO。他们都将成为AI agent的CEO,他们的创造力、知识以及推理能力将决定他们能否把问题分解,从而编程这些AI帮助他们实现目标,就像我做的那样——这就叫管理公司。
07

AI安全的必要性与挑战

Brad:你提到了AI不一致性和安全AI的问题,也提到了中东正在发生的悲剧。我们知道,世界上很多地方都在使用具有高度自主性的AI。那么,让我们谈谈恶意行为者、安全AI以及与华盛顿的协调。你现在对这些问题的看法如何?我们是否走在正确的道路上?我们是否达到了足够的协调水平?我记得Mark Zuckerberg曾说,打败坏AI的方式是让好的AI变得更强。你会如何描述你对确保AI对人类带来积极净效益的看法?而不是让我们陷入一个没有意义的反乌托邦世界

黄仁勋:关于安全性的问题非常重要,也值得我们深入讨论。是的,从抽象层面上来看,将AI视为一个大型的神经网络的这种概念并不是那么好,对吧?原因是我们知道,人工智能和大型语言模型是相关的,但并不完全相同。有很多事情正在进行,我认为这非常好。首先,开源模型让所有研究人员、各个行业和公司都能参与AI,学习如何利用这项技术来为他们的应用服务。这是非常好的。

第二,有很多为保持AI安全而专门发明的技术并没有得到足够的认可。无论是为了管理数据、携带信息、训练AI、对齐AI的技术,还是为了生成合成数据以扩展AI知识、减少AI幻觉的技术,都值得称赞。还有那些为了向AI提供矢量化、图形化等信息的技术,或者是为AI设定保护机制的AI,这些专门为了监控其他AI的系统是非常关键的,但却没有得到足够的关注。

因此,在确保AI安全的过程中,正在做的很多努力其实是非常好的。我们正在构建整个行业所需的一切,无论是方法论、红队测试流程、模型卡、评估系统、基准测试系统等等,所有这些都是在惊人的速度下构建出来的。我怀疑这些是否得到了足够的关注。你们能理解吗?

Brad:没有任何政府规定说你必须这样做。这些正在构建AI的行业参与者,今天正在认真对待并在关键问题上协调最佳实践。

黄仁勋:正是如此,这一切都没有得到足够的赞扬,也没有被充分理解。每个人都需要开始谈论AI,不仅仅是单一的AI,而是一个由多个AI组成的系统,并且这个系统是工程化的,建立在基础原则之上,经过良好的测试等等。要记住,AI是一种可以广泛应用的能力。我认为为重要技术制定法规是必要的,但也不要过度干预,大部分法规应该针对应用来制定。比如FAA(美国联邦航空管理局)、NHTSA(美国国家公路交通安全管理局)、FDA(美国食品药品监督管理局)等机构,现在必须监管那些结合了AI的技术应用。

所以,我认为不要误解,也不要忽视现在世界上将要为AI激活的大量监管框架,不要依赖于某个单一的“全球AI理事会”来完成这一切。毕竟,这些不同的机构和监管机构的成立都是有原因的,回到基础原则上去看问题。

08

英伟达的开源模型Nemotron

Brad:如果我不回到开源问题上,我的合伙人Bill可能会对我不满。你们最近发布了一个非常重要、非常强大、非常有能力的开源模型。

黄仁勋:是Nemotron。

Brad:对,最近发布的。显然,Meta也在开源领域做出了重要贡献。当我浏览推特时,我发现大家对开源与闭源之间有很多讨论。你对开源的感觉如何?你自己的开源模型是否能够跟上最前沿的发展?这是第一个问题。第二个问题是,你拥有开源模型,同时也有闭源模型来支持商业运营,你是否认为这是未来的趋势?这两者之间的平衡是否为安全性创造了健康的张力?

黄仁勋:开源与闭源的争论确实与安全性有关,但不仅仅是关于安全性。比如说,拥有闭源模型作为支持创新的经济模式引擎完全没有问题,对吧?我对此表示完全赞同。我认为把开源和闭源对立起来的想法是错误的。它们应该是相辅相成的。因为开源对于许多行业的激活是必要的。如果没有开源,许多科学领域如何能够借助AI技术被激活呢?因为这些领域需要开发他们自己的领域专属AI,并且需要使用开源模型来创造这些专属AI。两者是相关的,但不完全相同。仅仅拥有开源模型并不意味着你已经拥有了AI。因此,开源模型的存在是为了推动AI的创造,使得金融服务、医疗保健、交通运输等各个行业和科学领域都能因此而受益。

Brad:太棒了!你是否看到了对你们开源模型的强劲需求?

黄仁勋:我们的开源模型?首先,扎克伯格他们所做的工作,令人难以置信,成绩斐然。这完全激活并吸引了每个行业、每个科学领域的参与。

Nemotron这个模型的开发是为了生成合成数据。直觉上来说,一个 AI 会循环生成数据并学习自身的想法听起来有些脆弱。你能在这个无限循环中循环多少次?这个是值得怀疑的。然而,我的心里图景有点像是你把一个超级聪明的人关在软垫房间里一个月并且关上门。你知道,出来的可能不会是一个更聪明的人。

因此,假设两到三个人(不同 AI 模型)坐在一起交流,拥有不同的知识分布,并且相互质疑讨论,所有人都会变得更聪明。这就像不同的 AI 模型之间可以互相交换、互动、来回讨论、进行强化学习和生成合成数据的过程,这种直觉上是有道理的。

Nemotron 350B 是全球最好的奖励系统模型,它是最好的批评者。

所以这是一个非常棒的模型,用来提升其他所有的模型。无论其他模型有多么强大,我都会建议使用 Nemotron 340B 来增强并使其更好。我们已经看到了它使 Llama 更好,也使其他所有模型变得更好。

Brad:作为一个在2016年交付DGX1的人,这真是一段不可思议的旅程。你的旅程既不太可能又令人惊叹。谢谢你,你挺过来了,像这样在早期存活下来本身就很不简单。你在2016年交付了第一个DGX1。2022年,我们经历了一次'寒武纪'时刻。所以,我要问你一个我经常被问到的问题,那就是,你现在拥有60个直接下属,如何持续你现在正在做的事?你无处不在,正在推动这场革命。你享受其中吗?还是有其他你更愿意做的事?

黄仁勋:这是一个关于过去一个半小时的问题,答案是我十分享受其中。我同意,时间非常重要。我无法想象还有其他事情我更愿意做。让我们看看。我认为不能给人留下我们工作总是有趣的印象,对吧?我的工作并不总是有趣,也不指望它总是有趣。这从来就不是一个期望,重要的是,我认为这件事情一直都很重要。

我不太严肃对待自己,但我非常严肃对待工作。我非常认真对待我们的责任,认真对待我们对当下时刻的贡献。这总是有趣吗?不。但是我总是热爱它吗?是的。就像所有事情一样,无论是家庭、朋友、孩子,它总是有趣吗?不。但是我们总是深深热爱它吗?绝对是的。

所以,我认为真正的问题是我还能做多久?真正重要的是我还能保持多久的相关性。而这个问题只能通过我将如何继续学习来回答。今天,我对自己能够保持相关性并继续学习感到更加乐观。我并不是因为今天的话题才这么说的,而是因为AI。我每天都在用它,我相信你们也是。

没有一项研究是我不涉及AI的。即使我知道答案,我也会用AI再次确认。令人惊讶的是,接下来的两三个问题会揭示我不知道的东西。无论你选择什么主题。我认为AI作为导师、助手、头脑风暴伙伴、检查工作的工具,完全是革命性的。这仅仅是我是一个信息工作者,我的输出是信息。因此,我认为AI对社会的贡献是相当非凡的。

如果是这样的话,如果我能够像这样保持相关性,并且继续做出贡献,我知道这个工作足够重要,值得我继续追求。而且我的生活质量也非常好。

Brad:所以我要说,我已经在这个领域工作了几十年,我无法想象错过这一刻。这是我们职业生涯中最重要的时刻之一。我们非常感谢你们的合作。

黄仁勋:别错过接下来的十年。

Brad:感谢你们的合作伙伴关系,你让它变得更聪明了。谢谢你。我认为你在领导层中扮演着非常重要的角色,乐观且安全地引领未来。所以非常感谢你和我们一起做这次访谈。

黄仁勋:非常享受这次对话。谢谢你,Brad。谢谢你,Bill。

Brad:提醒大家,这只是我们的观点,不构成投资建议。

原文:Bg2 Pod | Ep17. Welcome Jensen Huang | BG2 w/ Bill Gurley & Brad Gerstner

https://www.youtube.com/watch?v=bUrCR4jQQg8&t=53s

编译:Jie Sun

往期推荐


李彦宏:大模型幻觉基本消除,这是只靠想法就能赚钱时代

百度沧海·存储统一技术底座架构演进

Agent+RAG:基于大模型的生成式AI落地探索

翁荔B站分享原文:AI安全与“培养”之道

抖音集团数据血缘深度应用:架构、指标与优化实践

OpenAI华人VP翁荔离职:北大校友,掌管安全,最近B站分享被热议

「深度」学习计算广告,我为什么从推荐系统转向计算广告?

腾讯语音合成技术:模型优化与推理加速实践

策略产品AI转型指南:能力模型与实战策略

DataWorks:新一代 Data+AI 数据开发与数据治理平台演进

点个在看你最好看

SPRING HAS ARRIVED

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/175942
 
79 次点击