夕小瑶科技说 原创 作者 | 蛋糕 大数据人工智能公司 Databricks放大招了!3月27日,该公司开源了通用大模型 DBRX,并声称该模型是迄今为止全球最强大的开源大型语言模型 ,比 Meta 的 Llama 2 更为强大。
Databricks CEO&创始人 Ali Ghodsi表示,DBRX不仅在测试中超过了所有先前的开源模型,而且该模型本身是一个专家混合模型(MoE),大致上拥有两倍的计算能力(132B),但成本只有Llama2-70B的一半(36B),这使得它既聪明又廉价。并且DBRX的运行速度接近于Llama2-70B的两倍。
DBRX 是在 12 万亿 Token 的文本和代码上预训练的 16×12B MoE LLM,它支持的最大上下文长度为 32k Tokens,并使用了DBRX 使用旋转位置编码 (RoPE)、门控线性单元 (GLU) 和分组查询注意力 (GQA) 等技术来提高模型质量,Hugging Face 工程师 Vaibhav Srivastav 用狂野 表示他对DBRX性能的震撼!
知名的机器学习专家、著名书籍《The Hundred-Page Machine Learning Book》的作者Andriy Burkov表示DBRX性能十分强大,如果你有足够多的大型GPU来进行微调,那么结果将是开放式语言模型中最好的。
综合来看,DBRX主要有三个优势,第一性能强 ,第二成本低 ,第三运行快 !
目前,DBRX的基础版本(DBRX Base)和微调版本(DBRX Instruct)都可以在GitHub和AI开发平台Hugging Face上免费获取,供研究和商业使用。用户可以在公共、自定义或其他专有数据上运行和调整。
DBRX Base Hugging Face地址: https://huggingface.co/databricks/dbrx-baseDBRX Instruct Hugging Face地址: https://huggingface.co/databricks/dbrx-instructGithub链接: https://github.com/databricks/dbrx
让我们来看看DBRX的具体表现吧~
性能测试 DBRX 与开源模型比较 DBRX在语言理解、编程以及数学推理等任务上轻松超越了Meta公司的Llama2-70B、法国Mixtral AI公司的Mixtral以及马斯克刚刚开源的 Grok-1等主流开源大模型。
在两个综合基准测试上评估了DBRX Instruct和其他模型:Hugging Face开放LLM排行榜(包括ARC-Challenge、HellaSwag、MMLU、TruthfulQA、WinoGrande和GSM8k的平均分)和Databricks模型Gauntlet(包含超过30个任务,涵盖世界知识、常识推理、语言理解、阅读理解、符号问题解决和编程等六个类别)。DBRX Instruct在综合基准测试、编程和数学基准测试以及MMLU方面是领先的。它在标准基准测试中超过了所有聊天或指导微调模型。
DBRX 与闭源模型比较 DBRX Instruct 超越了 GPT-3.5(如 GPT-4 论文中所述),并且与 Gemini 1.0 Pro 和 Mistral Medium 具有相当的竞争力。
其中,最让人惊喜的是,在各个评测任务中,DBRX Instruct要么与GPT-3.5持平要么明显超越GPT-3.5,虽然和GPT-4相比仍有一定差距,但是DBRX Instruct毕竟是个开源模型,这样的结果可以让科研工作者一定程度上减少对闭源模型的依赖。看来越来越多的公司可以和OpenAI抗衡了!
长下文任务和 RAG
DBRX Instruct 训练上下文窗口大小为 32K token。DBRX Instruct 表现比 GPT-3.5 Turbo 好;DBRX Instruct 和 Mixtral Instruct 的整体性能相似。
训练效率 在Databricks的研究中,DBRX Instruct模型在计算效率和质量方面取得了显著进展,通过混合专家模型、改进数据质量和优化策略等手段,有效提高了训练和使用模型的效率。
推理效率 DBRX和类似模型在推理效率方面表现出色,MoE架构使得在模型质量和推理效率之间取得更好的平衡,DBRX的推理吞吐量比非MoE模型高2-3倍。
通过测试可以看出,对于同样的输入数据和同样的任务,DBRX Instruct的生成速度要明显快于Llama 2 70B Chat。(图源网络)
结论 本文介绍了DBRX新的开源大模型,该模型在各个任务上都达到了开源大模型的SOTA,并且成功超越或持平了GPT-3.5等常用的闭源大模型,更为重要的是,MoE架构使得DBRX Instruct在模型性能和推理效率之间取得更好的平衡,推理速度也明显快于当前常用的开源大模型,也许,开源的大模型就此崛起!