社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!

夕小瑶科技说 • 7 月前 • 200 次点击  

夕小瑶科技说 原创
作者 | 蛋糕
大数据人工智能公司 Databricks放大招了!3月27日,该公司开源了通用大模型 DBRX,并声称该模型是迄今为止全球最强大的开源大型语言模型,比 Meta 的 Llama 2 更为强大。

Databricks CEO&创始人 Ali Ghodsi表示,DBRX不仅在测试中超过了所有先前的开源模型,而且该模型本身是一个专家混合模型(MoE),大致上拥有两倍的计算能力(132B),但成本只有Llama2-70B的一半(36B),这使得它既聪明又廉价。并且DBRX的运行速度接近于Llama2-70B的两倍。

DBRX 是在 12 万亿 Token 的文本和代码上预训练的 16×12B MoE LLM,它支持的最大上下文长度为 32k Tokens,并使用了DBRX 使用旋转位置编码 (RoPE)、门控线性单元 (GLU) 和分组查询注意力 (GQA) 等技术来提高模型质量,Hugging Face 工程师 Vaibhav Srivastav 用狂野表示他对DBRX性能的震撼!

知名的机器学习专家、著名书籍《The Hundred-Page Machine Learning Book》的作者Andriy Burkov表示DBRX性能十分强大,如果你有足够多的大型GPU来进行微调,那么结果将是开放式语言模型中最好的。

综合来看,DBRX主要有三个优势,第一性能强,第二成本低,第三运行快

目前,DBRX的基础版本(DBRX Base)和微调版本(DBRX Instruct)都可以在GitHub和AI开发平台Hugging Face上免费获取,供研究和商业使用。用户可以在公共、自定义或其他专有数据上运行和调整。

DBRX Base Hugging Face地址:
https://huggingface.co/databricks/dbrx-base
DBRX Instruct Hugging Face地址:
https://huggingface.co/databricks/dbrx-instruct
Github链接:
https://github.com/databricks/dbrx

让我们来看看DBRX的具体表现吧~

性能测试

DBRX 与开源模型比较

DBRX在语言理解、编程以及数学推理等任务上轻松超越了Meta公司的Llama2-70B、法国Mixtral AI公司的Mixtral以及马斯克刚刚开源的 Grok-1等主流开源大模型。

在两个综合基准测试上评估了DBRX Instruct和其他模型:Hugging Face开放LLM排行榜(包括ARC-Challenge、HellaSwag、MMLU、TruthfulQA、WinoGrande和GSM8k的平均分)和Databricks模型Gauntlet(包含超过30个任务,涵盖世界知识、常识推理、语言理解、阅读理解、符号问题解决和编程等六个类别)。DBRX Instruct在综合基准测试、编程和数学基准测试以及MMLU方面是领先的。它在标准基准测试中超过了所有聊天或指导微调模型。

DBRX 与闭源模型比较

DBRX Instruct 超越了 GPT-3.5(如 GPT-4 论文中所述),并且与 Gemini 1.0 Pro 和 Mistral Medium 具有相当的竞争力。

其中,最让人惊喜的是,在各个评测任务中,DBRX Instruct要么与GPT-3.5持平要么明显超越GPT-3.5,虽然和GPT-4相比仍有一定差距,但是DBRX Instruct毕竟是个开源模型,这样的结果可以让科研工作者一定程度上减少对闭源模型的依赖。看来越来越多的公司可以和OpenAI抗衡了!

长下文任务和 RAG

DBRX Instruct 训练上下文窗口大小为 32K token。DBRX Instruct 表现比 GPT-3.5 Turbo 好;DBRX Instruct 和 Mixtral Instruct 的整体性能相似。

训练效率

在Databricks的研究中,DBRX Instruct模型在计算效率和质量方面取得了显著进展,通过混合专家模型、改进数据质量和优化策略等手段,有效提高了训练和使用模型的效率。

推理效率

DBRX和类似模型在推理效率方面表现出色,MoE架构使得在模型质量和推理效率之间取得更好的平衡,DBRX的推理吞吐量比非MoE模型高2-3倍。

通过测试可以看出,对于同样的输入数据和同样的任务,DBRX Instruct的生成速度要明显快于Llama 2 70B Chat。(图源网络)

结论

本文介绍了DBRX新的开源大模型,该模型在各个任务上都达到了开源大模型的SOTA,并且成功超越或持平了GPT-3.5等常用的闭源大模型,更为重要的是,MoE架构使得DBRX Instruct在模型性能和推理效率之间取得更好的平衡,推理速度也明显快于当前常用的开源大模型,也许,开源的大模型就此崛起!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/168507
 
200 次点击