社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

深度|CNBC专访分析:DeepSeek是中国的ChatGPT时刻,他们不是在复制,而是在创新

Dots机构投资者社区 • 昨天 • 19 次点击  

本文转自微信公众号“ Z Potentials”,作者:CNBC。

DeepSeek 效应正在不断发酵。英伟达暴跌近17%,市值蒸发5,927亿美元,创下美股史上最大单日市值损失纪录。CNBC用近一小时时间与北美最火的AI搜索独角兽讨论DeepSeek对全球人工智能产业的影响,也全面展示了美国当下的最真实心态,美国AI初创公司Perplexity CEO分析为何DeepSeek会引发人们对美国在AI领域的全球领先地位是否正在缩小的担忧。

图片来源:CNBC

“需求是发明之母”,Aravind Srinivas谈起DeepSeek,“因为他们必须想办法绕过限制,最终实际上打造出了效率更高的东西。”

在对话中,Aravind Srinivas不仅分析了DeepSeek对美国AI的影响,对DeepSeek的创新给予了较高的评价,没有一味搞对立,还是比较中肯的。

本文翻译转载自公众号:三言Pro

以下是对话原文(不影响原意的情况下翻译略有删改):

主持人:请描述中美之间的AI竞赛,以及其中的利害关系。

Aravind Srinivas: 首先,中国在与美国的竞争中存在很多劣势。第一,他们无法获得我们这里能够使用的所有硬件资源。他们基本上在使用比我们低端的GPU,几乎像是上一代的GPU。由于更大的模型往往更智能,这自然让他们处于劣势。

但另一方面,需求是发明之母。因为他们不得不寻找变通方案,最终他们实际上构建了更高效的解决方案。这就像说:“嘿,你们必须构建一个顶级模型,但我不会给你们资源,你们得自己想办法。”除非数学上证明这是不可能的,否则你总能尝试找到更高效的解决方案。这可能会让他们比美国找到更高效的解决方案。

当然,他们有开源模型,我们也可以在这里采用类似的东西。但他们培养的这种人才将逐渐成为他们的优势。目前,美国领先的开源模型是Meta的Llama系列,它非常出色,几乎可以在你的电脑上运行。尽管它在发布时接近GPT-4的水平,但最接近质量的模型是巨大的405B参数模型,而不是你可以在电脑上运行的70B模型。因此,仍然没有一个既小又便宜、快速且开源的模型能够与最强大的闭源模型相媲美。

然后,这些中国团队推出了一个疯狂的模型,API价格比GPT-4便宜10倍,甚至比Claude便宜15倍,速度极快,并且在某些基准测试中与GPT-4相当,甚至更好。他们只用了大约2048个H800 GPU,相当于1500到2000个H100 GPU,这比GPT-4通常训练的GPU数量少了20到30倍。他们总共只花了500万美元的计算机预算,就做出了如此惊人的模型,并且免费公开了技术论文。

主持人:当你理解他们所做的一切时,你的惊讶是什么?

Aravind Srinivas: 我的惊讶是,当我阅读他们的技术论文时,他们提出了许多聪明的解决方案。首先,他们训练了一个混合专家模型(Mixture of Experts),这并不容易训练。主要原因是人们发现很难跟上OpenAI的步伐,尤其是在MoE架构上,因为存在很多不规则的损失峰值,数值不稳定,经常需要重新启动训练检查点。他们提出了非常聪明的解决方案来平衡这一点,而不需要额外的技巧。

他们还提出了8位浮点训练,至少在部分数值上。他们巧妙地确定了哪些部分需要高精度,哪些部分可以低精度。据我所知,8位浮点训练在美国并不常见,大多数训练仍然在16位进行,尽管有些人正在探索这一点,但很难做到正确。

由于需求是发明之母,他们没有那么多内存和GPU,因此他们找到了许多数值稳定的方法,使他们的训练能够顺利进行。他们在论文中声称,大部分训练是稳定的,这意味着他们可以随时重新运行这些训练,使用更多的数据或更好的数据。整个训练只花了60天,这非常惊人。

主持人: 你刚才说你很惊讶。

Aravind Srinivas: 通常的认知是中国人擅长复制。如果我们停止在美国发表研究论文,停止描述我们的基础设施架构细节,停止开源,他们将无法赶上。但现实是,DeepSeek 3中的一些细节非常出色,我甚至不会惊讶Meta会借鉴其中的一些内容,并将其应用到Llama模型中。

这并不是说他们在复制,而是他们在创新。

主持人:我们并不完全知道他们训练的数据是什么,尽管它是开源的,我们知道一些训练方式,但并不是全部。有一种观点认为,它是基于ChatGPT的公开输出训练的,这意味着它只是复制品。但你说它超越了这一点,有真正的创新。

Aravind Srinivas: 是的,他们训练了14.8万亿个token。互联网上有太多ChatGPT生成的内容,如果你现在去看任何LinkedIn帖子或X帖子,大多数评论都是由AI写的。甚至在X上,有Grok推文增强器,LinkedIn上有AI增强器,Google Docs和Word中也有AI工具来重写你的内容。如果你在这些地方写了东西并复制粘贴到互联网上,自然会带有一些ChatGPT的训练痕迹。很多人甚至懒得去掉“我是一个语言模型”的部分。因此,这个领域很难控制。

所以我不会因为某些提示(比如“你是谁”或“你是哪个模型”)而忽视他们的技术成就。在我看来,这并不重要。

主持人:长期以来,我们认为中国在AI领域落后。这场竞赛对这场竞争有何影响?我们能说中国正在迎头赶上,还是已经赶上了?

Aravind Srinivas: 如果我们说Meta正在赶上OpenAI或Anthropic,那么同样的说法也可以用于中国赶上美国。事实上,我看到中国有更多论文试图复制OpenAI的成果,甚至比美国还多。DeepSeek能够使用的计算资源与美国的博士生相当。

主持人:你会将DeepSeek整合到Perplexity中吗?

Aravind Srinivas: 我们已经开始使用它了。他们有API,并且开源了,所以我们也可以自己托管它。使用它实际上让我们能够以更低的成本做很多事情。

但我在想的是,他们实际上能够训练出如此出色的模型,这对美国公司来说不再有借口不去尝试类似的事情。

主持人:你听到很多生成式AI领域的意见领袖,无论是研究还是创业方面,比如Elon Musk等人,都说中国无法赶上,因为赌注太大。谁主导了AI,谁就将主导经济,主导世界。你对中国证明自己能够做到的事情感到担忧吗?

Aravind Srinivas: 首先,我不确定Elon是否说过中国能赶上,我只知道他提到了中国的威胁。Sam Altman也说过类似的话,我们不能让中国赢。我的观点是,无论你做什么来阻止他们赶上,最终他们还是赶上了。需求是发明之母。更危险的是,他们拥有最好的开源模型,而所有美国开发者都在基于此构建。那样的话,他们将拥有用户心智份额和生态系统。

如果整个美国AI生态系统都依赖于中国的开源模型,那将是非常危险的。历史上,一旦开源软件赶上或超越了闭源软件,所有开发者都会迁移到开源。当Llama被构建并广泛使用时,人们曾质疑是否应该信任扎克伯格,但现在的问题是,我们是否应该信任中国?

Aravind Srinivas: 从某种意义上说,这并不重要,因为你仍然可以完全控制它,你可以在自己的计算机上运行它,你是模型的主人。但对于我们自己的技术人才来说,依赖别人的软件并不是一个好现象,即使它是开源的。开源也可能有一天不再开源,许可证可能会改变。因此,重要的是我们美国自己有人才在构建这些技术,这就是为什么Meta如此重要。

我认为Meta仍然会构建出比DeepSeek 3更好的模型,并将其开源。我们不应该把所有的精力都放在禁止他们、阻止他们上,而是应该努力超越他们,赢得竞争。这就是美国的方式,做得更好。

我们听到越来越多关于这些中国公司的消息,他们以更高效、更低成本的方式开发类似的技术。这确实让人感到压力。

Aravind Srinivas: 是的,如果你筹集了100亿美元,并决定将80%的资金用于计算机集群,那么你很难像那些只有500万美元预算的人一样,找到同样高效的解决方案。这并不是说投入更多资金的人没有尽力,他们只是试图尽快完成。

当我们说开源时,有很多不同的版本。有些人批评Meta没有公开所有内容,甚至DeepSeek本身也并不完全透明。你可以说开源的极限是能够完全复制他们的训练过程,但有多少人真的有资源做到这一点呢?相比之下,他们在技术报告中分享的细节已经比许多其他公司多得多。

主持人:当你想到DeepSeek做这件事的成本不到600万美元时,再想想OpenAI开发GPT模型花费了多少。这对闭源模型的生态系统轨迹、发展势头意味着什么?对OpenAI又意味着什么?

Aravind Srinivas: 很明显,我们将拥有一个开源版本,甚至比闭源版本更好、更便宜。OpenAI可能不会关心这是否由他们制作,因为他们已经转向了一个新的范式,称为o1系列模型。OpenAI的Ilya Sutskever曾说过,预训练已经遇到了瓶颈。这并不意味着扩展已经结束,而是我们在不同的维度上进行扩展,比如模型思考的时间、强化学习等。

OpenAI现在更专注于让模型在遇到新提示时进行推理、收集数据并与世界互动,使用各种工具。我认为这是未来的方向,而不仅仅是更大更好的模型。

我认为DeepSeek也会将注意力转向推理,这就是为什么我对他们下一步的成果感到兴奋。

那么,OpenAI的下一步是什么?我认为目前还没有人能够构建出类似o1的系统。尽管有人质疑o1是否真的值得,但在某些提示下,它的表现确实更好。至少他们在O3中展示的结果显示,它在竞争性编程中的表现几乎达到了AI软件工程师的水平。

主持人:这是否只是时间问题,互联网上充满了推理数据,DeepSeek也能做到?

Aravind Srinivas: 有可能,但没有人知道。在它实现之前,不确定性仍然存在。

主持人:到今年年底,推理领域是否会有多个玩家?

Aravind Srinivas:我绝对认为是这样。

主持人:我们是否正在看到大型语言模型的商业化?

Aravind Srinivas: 我认为我们会看到类似的轨迹,就像预训练和后训练系统逐渐商业化一样。今年会有更多的商业化,推理模型也会经历类似的轨迹。最初可能只有一两个玩家知道如何做到,但随着时间的推移,更多的玩家会加入。谁知道呢,OpenAI可能会在推理领域取得新的突破。

现在推理是他们的重点,但技术进步会不断发生。随着时间推移,今天的模型所具备的推理能力和多模态能力,将会以更低成本的开源模型形式出现。唯一不确定的是,像能够在推理时进行思考的模型,是否能够便宜到足以在我们的手机上运行。

主持人:感觉随着DeepSeek所证明的能力,整个AI领域的格局已经发生了变化。你能称之为中国的ChatGPT时刻吗?

Aravind Srinivas: 有可能。我认为这无疑给了他们很多信心,表明他们并没有落后。无论你如何限制他们的计算资源,他们总能找到变通方案。我相信团队对他们的成果感到非常兴奋。

主持人: 这如何改变投资格局?那些每年花费数百亿美元在计算资源上的超大规模公司,以及OpenAI和Anthropic等筹集数十亿美元用于GPU的公司,DeepSeek告诉我们,你并不一定需要那么多资源。

Aravind Srinivas: 我认为很明显,他们会更加专注于推理,因为他们明白,无论他们过去两年在构建什么,现在都变得非常便宜,以至于继续投入大量资金不再合理。他们是否需要同样多的高端GPU,还是可以使用DeepSeek那样的低端GPU进行推理?这很难说,除非被证明不行。

但在快速前进的精神下,你可能会希望使用高端芯片,以便比竞争对手更快。最优秀的人才仍然希望加入那些最先实现突破的团队。总有一些荣耀属于真正的先驱者,而不是快速跟随者。

主持人:这有点像Sam Altman的推文,暗示DeepSeek只是复制了别人的成果。

Aravind Srinivas: 但你也可以说,在这个领域,每个人都在复制别人。你可以说Google最先提出了Transformer,OpenAI只是复制了它。Google构建了第一个大型语言模型,但没有优先发展它,而OpenAI则将其作为优先事项。所以你可以说这些,但在很多方面,这并不重要。

主持人:我记得我问过你,为什么你不想构建模型。你说那是一场极其昂贵的竞赛,而现在一年后,你看起来非常聪明,没有卷入这场竞争。你现在在大家想要看到的领域——生成式AI的杀手级应用——占据了领先地位。请谈谈这个决定,以及你如何看待Perplexity的未来。

Aravind Srinivas: 一年前,我们甚至没有像GPT-3.5这样的模型。我们有GPT-4,但没有人能够赶上它。我的感觉是,如果那些拥有更多资源和更多才华的人都无法赶上,那么参与这场游戏是非常困难的。所以我们决定玩一个不同的游戏。无论如何,人们都想使用这些模型,而一个方向是提出问题并获得准确的答案,附带来源和实时信息。

在模型之外,确保产品可靠运行、扩展使用规模、构建自定义UI等方面还有很多工作要做。我们会专注于这些,并受益于模型变得越来越好。事实上,GPT-3.5让我们的产品变得非常好。如果你在Perplexity中选择GPT-3.5作为模型,几乎很难找到幻觉。这并不是说它不可能发生,但它大大减少了幻觉的发生率。

这意味着,提问、获得答案、进行事实核查、研究、询问任何信息的问题,几乎所有的信息都在网上,这是一个巨大的解锁。这帮助我们在过去一年中用户量增长了十倍。我们在用户方面取得了巨大进展,很多大投资者都是我们的粉丝,比如黄仁勋,他在最近的主题演讲中提到了我们,他实际上是一个经常使用的用户。

主持人:一年前,我们甚至没有谈论商业化,因为你们还很新,只想扩大规模。但现在你们正在考虑广告模式。

Aravind Srinivas: 是的,我们正在尝试。我知道这引起了一些争议,比如为什么我们要做广告,是否可以在有广告的情况下仍然提供真实的答案。在我看来,我们一直非常积极地思考这个问题。我们说过,只要答案始终准确、无偏见,并且不受广告预算的影响,你只会看到一些赞助问题。甚至这些赞助问题的答案也不受广告影响。

广告商也希望你知道他们的品牌,并了解他们品牌的最佳部分,就像你在介绍自己时希望别人看到你最好的一面一样。但你仍然不必点击赞助问题,你可以忽略它。我们目前只按CPM收费,所以还没有激励你去点击。

考虑到所有这些,我们实际上是在尝试长期做对的事情,而不是像Google那样强迫你点击链接。

主持人我记得一年前人们谈论模型商品化时,你认为这是有争议的,但现在这不再有争议了。这种情况正在发生,你关注这一点是明智的。

Aravind Srinivas: 顺便说一句,我们从模型商品化中受益匪浅,但我们还需要为付费用户提供一些额外的价值,比如一个更高级的研究代理,能够进行多步推理,进行15分钟的搜索,并给出分析类型的答案。所有这些都将保留在产品中,不会有任何变化。

但免费用户每天提出的1万亿个问题需要快速回答,这些必须保持免费。这意味着我们需要找到一种方法,使这些免费流量也能够货币化。

主持人:你并不是试图改变用户习惯,但你正在试图教广告商新的习惯。他们不能像在Google的蓝色链接搜索中那样获得一切。到目前为止,广告商的反应如何?他们愿意接受这些权衡吗?

Aravind Srinivas: 是的,这就是为什么他们在尝试与我们合作。许多品牌都在与我们合作测试。他们也很兴奋,因为无论喜欢与否,未来大多数人都将通过AI提问,而不是传统的搜索引擎。每个人都明白这一点,所以他们都希望成为新平台、新用户体验的早期采用者,并从中学习,共同构建未来。

主持人:我笑了,因为这完美地回到了你今天一开始提到的观点:需求是发明之母。广告商们正在看到这个领域的变化,他们必须学会适应。

Aravind Srinivas: 没错,这就是广告商们正在做的事情,他们说这个领域正在变化,我们必须学会适应。

本文转自微信公众号“ Z Potentials”,作者:CNBC。


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178508
 
19 次点击