社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

ChatGPT的数据集: 训练并优化自己的ChatGPT模型 || Awesome ChatGPT Dataset!!!

AI算法与图像处理 • 1 年前 • 291 次点击  

大家好,介绍一些ChatGPT的数据集,这些数据集能够训练并优化自己的ChatGPT模型。数据集,包括但不限于英语、中文、多语言等多种语言的数据集,以及涵盖各种主题和领域的数据集。

https://github.com/voidful/awesome-chatgpt-dataset/blob/main/README.md

数据集: cc_sbu_align

数据集URL: cc_sbu_align[1]数据集大小: 4K 数据集主要内容:这是MiniGPT-4的数据集,主要语言为英语,采用BSD 3-Clause License。

数据集: SLF5K

数据集URL: SLF5K[2]数据集大小: 5K 数据集主要内容:这是一个英语数据集,包含5K个独特的样本,可以用于抽象概括的任务,采用apache-2.0许可证。

数据集: blended_skill_talk

数据集URL: blended_skill_talk[3]数据集大小: 7K 数据集主要内容:这是一个设计用来展示多种对话模式的数据集,包括展示个性,表现同情,和展示知识。

数据集: GSM-IC

数据集URL: GSM-IC[4]数据集大小: 8K 数据集主要内容:这是一个名为Grade-School Math with Irrelevant Context (GSM-IC)的数据集。

数据集: ChatAlpaca

数据集URL: ChatAlpaca[5]数据集大小: 10K 数据集主要内容:这个数据集目前包含总共10,000个对话,包含95,558个话语,采用Apache-2.0许可证。

这是更多的数据集信息:

数据集: PKU-SafeRLHF-10K

数据集URL: PKU-SafeRLHF-10K[6]数据集大小: 10K 数据集主要内容:这是第一个此类数据集,包含10k个带有安全偏好的实例。

数据集: Dolly

数据集URL: Dolly[7]数据集大小: 15K 数据集主要内容:databricks-dolly-15k是一个由数千名Databricks员工生成的超过15,000条记录的语料库,用于使大型语言模型展示ChatGPT的神奇交互性,采用CC 3.0许可证。

数据集: WebGPT

数据集URL: WebGPT[8]数据集大小: 20K 数据集主要内容:这是WebGPT项目结束时,所有被标记为适合奖励建模的比较的数据集。

数据集: Code Alpaca

数据集URL: Code Alpaca[9]数据集大小: 20K 数据集主要内容:这是一个涉及20,022个样本的代码生成任务的数据集。

数据集: HC3

数据集URL: HC3[10]数据集大小: 37K 数据集主要内容:这是一个由ChatGPT和人类生成的37,175条指令的数据集,主要语言为英语和中文。

好的,这是更多的数据集信息:

数据集: RefGPT

数据集URL: RefGPT[11]数据集大小: 50K 数据集主要内容:这是一个被称为RefGPT的成本有效方法生成的大量高质量多轮Q&A内容的数据集,主要语言为英语和中文。

数据集: Alpaca Dataset

数据集URL: Alpaca Dataset[12]数据集大小: 52K 数据集主要内容:这个数据集包含了由OpenAI API生成的175个种子指令,采用CC By NC 4.0和OpenAI使用条款。

数据集: Alpaca Data Cleaned

数据集URL: Alpaca Data Cleaned[13]数据集大小: 52K 数据集主要内容:这是Alpaca Dataset的修订版本。

数据集: Alpaca GPT-4 Data

数据集URL: Alpaca GPT-4 Data[14]数据集大小: 52K 数据集主要内容:这个数据集是由GPT-4使用Alpaca提示生成的。

数据集: Alpaca GPT-4 Data (Chinese)

数据集URL: Alpaca GPT-4 Data (Chinese)[15]数据集大小: 52K 数据集主要内容:这个数据集是由GPT-4使用由ChatGPT翻译的Alpaca中文提示生成的。

这些只是部分数据集的信息,如果你需要更多的数据集信息,。

参考资料

[1]

cc_sbu_align: https://huggingface.co/datasets/Vision-CAIR/cc_sbu_align

[2]

SLF5K: https://huggingface.co/datasets/JeremyAlain/SLF5K

[3]

blended_skill_talk: https://huggingface.co/datasets/blended_skill_talk

[4]

GSM-IC: https://github.com/google-research-datasets/GSM-IC

[5]

ChatAlpaca: https://github.com/cascip/ChatAlpaca

[6]

PKU-SafeRLHF-10K: https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF-10K

[7]

Dolly: https://github.com/databrickslabs/dolly/tree/master/data

[8]

WebGPT: https://huggingface.co/datasets/openai/webgpt_comparisons

[9]

Code Alpaca: https://github.com/sahil280114/codealpaca

[10]

HC3: https://huggingface.co/datasets/Hello-SimpleAI/HC3

[11]

RefGPT: https://github.com/ziliwangnlp/RefGPT

[12]

Alpaca Dataset: https://github.com/tatsu-lab/stanford_alpaca

[13]

Alpaca Data Cleaned: https://github.com/gururise/AlpacaDataCleaned

[14]

Alpaca GPT-4 Data: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

[15]

Alpaca GPT-4 Data (Chinese): https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/156807
 
291 次点击