ChatGPT的数据集: 训练并优化自己的ChatGPT模型 || Awesome ChatGPT Dataset!!!

大家好，介绍一些ChatGPT的数据集，这些数据集能够训练并优化自己的ChatGPT模型。数据集，包括但不限于英语、中文、多语言等多种语言的数据集，以及涵盖各种主题和领域的数据集。

https://github.com/voidful/awesome-chatgpt-dataset/blob/main/README.md

数据集: cc_sbu_align

数据集URL: cc_sbu_align^[1]数据集大小: 4K 数据集主要内容：这是MiniGPT-4的数据集，主要语言为英语，采用BSD 3-Clause License。

数据集: SLF5K

数据集URL: SLF5K^[2]数据集大小: 5K 数据集主要内容：这是一个英语数据集，包含5K个独特的样本，可以用于抽象概括的任务，采用apache-2.0许可证。

数据集: blended_skill_talk

数据集URL: blended_skill_talk^[3]数据集大小: 7K 数据集主要内容：这是一个设计用来展示多种对话模式的数据集，包括展示个性，表现同情，和展示知识。

数据集: GSM-IC

数据集URL: GSM-IC^[4]数据集大小: 8K 数据集主要内容：这是一个名为Grade-School Math with Irrelevant Context (GSM-IC)的数据集。

数据集: ChatAlpaca

数据集URL: ChatAlpaca^[5]数据集大小: 10K 数据集主要内容：这个数据集目前包含总共10,000个对话，包含95,558个话语，采用Apache-2.0许可证。

这是更多的数据集信息：

数据集: PKU-SafeRLHF-10K

数据集URL: PKU-SafeRLHF-10K^[6]数据集大小: 10K 数据集主要内容：这是第一个此类数据集，包含10k个带有安全偏好的实例。

数据集: Dolly

数据集URL: Dolly^[7]数据集大小: 15K 数据集主要内容：databricks-dolly-15k是一个由数千名Databricks员工生成的超过15,000条记录的语料库，用于使大型语言模型展示ChatGPT的神奇交互性，采用CC 3.0许可证。

数据集: WebGPT

数据集URL: WebGPT^[8]数据集大小: 20K 数据集主要内容：这是WebGPT项目结束时，所有被标记为适合奖励建模的比较的数据集。

数据集: Code Alpaca

数据集URL: Code Alpaca^[9]数据集大小: 20K 数据集主要内容：这是一个涉及20,022个样本的代码生成任务的数据集。

数据集: HC3

数据集URL: HC3^[10]数据集大小: 37K 数据集主要内容：这是一个由ChatGPT和人类生成的37,175条指令的数据集，主要语言为英语和中文。

好的，这是更多的数据集信息：

数据集: RefGPT

数据集URL: RefGPT^[11]数据集大小: 50K 数据集主要内容：这是一个被称为RefGPT的成本有效方法生成的大量高质量多轮Q&A内容的数据集，主要语言为英语和中文。

数据集: Alpaca Dataset

数据集URL: Alpaca Dataset^[12]数据集大小: 52K 数据集主要内容：这个数据集包含了由OpenAI API生成的175个种子指令，采用CC By NC 4.0和OpenAI使用条款。

数据集: Alpaca Data Cleaned

数据集URL: Alpaca Data Cleaned^[13]数据集大小: 52K 数据集主要内容：这是Alpaca Dataset的修订版本。

数据集: Alpaca GPT-4 Data

数据集URL: Alpaca GPT-4 Data^[14]数据集大小: 52K 数据集主要内容：这个数据集是由GPT-4使用Alpaca提示生成的。

数据集: Alpaca GPT-4 Data (Chinese)

数据集URL: Alpaca GPT-4 Data (Chinese)^[15]数据集大小: 52K 数据集主要内容：这个数据集是由GPT-4使用由ChatGPT翻译的Alpaca中文提示生成的。

这些只是部分数据集的信息，如果你需要更多的数据集信息，。

参考资料

[1]

cc_sbu_align: https://huggingface.co/datasets/Vision-CAIR/cc_sbu_align

[2]

SLF5K: https://huggingface.co/datasets/JeremyAlain/SLF5K

[3]

blended_skill_talk: https://huggingface.co/datasets/blended_skill_talk

[4]

GSM-IC: https://github.com/google-research-datasets/GSM-IC

[5]

ChatAlpaca: https://github.com/cascip/ChatAlpaca

[6]

PKU-SafeRLHF-10K: https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF-10K

[7]

Dolly: https://github.com/databrickslabs/dolly/tree/master/data

[8]

WebGPT: https://huggingface.co/datasets/openai/webgpt_comparisons

[9]

Code Alpaca: https://github.com/sahil280114/codealpaca

[10]

HC3: https://huggingface.co/datasets/Hello-SimpleAI/HC3

[11]

RefGPT: https://github.com/ziliwangnlp/RefGPT

[12]

Alpaca Dataset: https://github.com/tatsu-lab/stanford_alpaca

[13]

Alpaca Data Cleaned: https://github.com/gururise/AlpacaDataCleaned

[14]

Alpaca GPT-4 Data: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

[15]

Alpaca GPT-4 Data (Chinese): https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM