社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

专用于手机、笔记本,Stability.ai开源ChatGPT基因的大模型

AIGC开放社区 • 1 年前 • 274 次点击  

专注AIGC领域的专业社区,关注微软OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

12月8日,著名开源生成式AI平台stability.ai在官网开源了,30亿参数的大语言模型StableLM Zephyr 3B。
Zephyr 3B专用于手机、笔记本等移动设备,主打参数小、性能强、算力消耗低的特点,可自动生成文本、总结摘要等,可与70亿、130亿参数的模型相媲美。

值得一提的是,该模型的核心架构来自Zephyr 7B,并进行了精调。而Zephyr 7B是基于前几天刚获35亿元巨额融资Mistral AI的Mistral-7B模型微调而成

同时使用了GPT-3.5生成了训练数据集以及GPT-4对其进行了人工智能反馈,所以,Zephyr 3B是有多家大厂模型基因的超级缝合怪。

Zephyr 3B开源地址:https://huggingface.co/stabilityai/stablelm-zephyr-3b

Zephyr 7B开源地址:https://huggingface.co/HuggingFaceH4/zephyr-7b-beta

由于Stability.ai并没有开放Zephyr 3B的论文,只能从Zephyr 7B的技术文档为大家解读一下其核心架构,主要包含监督学习优化、人工智能反馈和直觉优化指导学习三大模块。

由于该模型在训练数据集和人工智能反馈等方面使用了GPT系列模型,有很强的ChatGPT基因。

监督学习优化(dSFT)

研究人员通过OpenAI的GPT-3.5 模型生成了规模庞大的对话数据集“UltraChat”,超过147万条多轮不同主题对话示例。
然后通过该数据集对模型进行监督学习优化,训练样本是对话内容和回复,以最大程度降低“交叉熵”误差。

该流程类似传统的监督学习方法,将模型训练任务指定到给定数据集上。
但与使用人工数据集略有不同,该方法直接使用了强大语言模型自主生成高质量的训练数据,避免了人工乱标注难题。

人工智能反馈(AIF)

为了进一步提升模型的文本生成、理解的精准度,研究人员使用了第二个数据集UltraFeedback,对4个不同的大语言模型,在不同主题下的回复进行打分评价。

具体方法是将每条对话的文本提示送入到4个模型,得到4个答案,然后再由“教师模型”GPT-4进行打分(0—10分)。最高分答案为“优先答案”,随机选择另一个作为“非优先答案”进行深度优化。

直觉优化指导学习(dDPO)

通过使用前面的“UltraFeedback”收集的GPT-4对话样本及质量评价,提取高分和低分样本作为数据配对组。

就是按批处理对优先和非优先样本计算两种概率,并利用损失函数测量它们的差异,通过反向传播优化模型参数。

该算法以试批方式运行,在每轮中随机选取样本对,计算当前模型与基线模型在这两个样本上的概率误差。
通过这种反向传播将误差回溯至参数,可实时地微调模型结构。整个优化流程非常高效,无需采样,几小时就能完成,并且不需任何人工标注。

测试数据

Stability.ai表示,Zephyr 3B在MT Bench、AlpacaEval等平台进行了测试,在生成上下文相关、连贯和语言准确等文本方面的表现非常优秀。
特别擅长创意、个性化文本生成,同时能根据用户输入的数据进行分析。

其性能可与Falcon-4b-Instruct、WizardLM-13B-v1、Llama-2-70b-chat 和 Claude-V1等几个大参数模型相媲美。

本文素材来源stability.ai官网、Zephyr 7B论文,如有侵权请联系删除

END


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/165451
 
274 次点击