大家好,介绍一些ChatGPT的数据集,这些数据集能够训练并优化自己的ChatGPT模型。数据集,包括但不限于英语、中文、多语言等多种语言的数据集,以及涵盖各种主题和领域的数据集。
https://github.com/voidful/awesome-chatgpt-dataset/blob/main/README.md
数据集: cc_sbu_align
数据集URL: cc_sbu_align[1]数据集大小: 4K
数据集主要内容:这是MiniGPT-4的数据集,主要语言为英语,采用BSD 3-Clause License。
数据集: SLF5K
数据集URL: SLF5K[2]数据集大小: 5K
数据集主要内容:这是一个英语数据集,包含5K个独特的样本,可以用于抽象概括的任务,采用apache-2.0许可证。
数据集: blended_skill_talk
数据集URL: blended_skill_talk[3]数据集大小: 7K
数据集主要内容:这是一个设计用来展示多种对话模式的数据集,包括展示个性,表现同情,和展示知识。
数据集: GSM-IC
数据集URL: GSM-IC[4]数据集大小: 8K
数据集主要内容:这是一个名为Grade-School Math with Irrelevant Context (GSM-IC)的数据集。
数据集: ChatAlpaca
数据集URL: ChatAlpaca[5]数据集大小: 10K
数据集主要内容:这个数据集目前包含总共10,000个对话,包含95,558个话语,采用Apache-2.0许可证。
这是更多的数据集信息:
数据集: PKU-SafeRLHF-10K
数据集URL: PKU-SafeRLHF-10K[6]数据集大小: 10K
数据集主要内容:这是第一个此类数据集,包含10k个带有安全偏好的实例。
数据集: Dolly
数据集URL: Dolly[7]数据集大小: 15K
数据集主要内容:databricks-dolly-15k是一个由数千名Databricks员工生成的超过15,000条记录的语料库,用于使大型语言模型展示ChatGPT的神奇交互性,采用CC 3.0许可证。
数据集: WebGPT
数据集URL: WebGPT[8]数据集大小: 20K
数据集主要内容:这是WebGPT项目结束时,所有被标记为适合奖励建模的比较的数据集。
数据集: Code Alpaca
数据集URL: Code Alpaca[9]数据集大小: 20K
数据集主要内容:这是一个涉及20,022个样本的代码生成任务的数据集。
数据集: HC3
数据集URL: HC3[10]数据集大小: 37K
数据集主要内容:这是一个由ChatGPT和人类生成的37,175条指令的数据集,主要语言为英语和中文。
好的,这是更多的数据集信息:
数据集: RefGPT
数据集URL: RefGPT[11]数据集大小: 50K
数据集主要内容:这是一个被称为RefGPT的成本有效方法生成的大量高质量多轮Q&A内容的数据集,主要语言为英语和中文。
数据集: Alpaca Dataset
数据集URL: Alpaca Dataset[12]数据集大小: 52K
数据集主要内容:这个数据集包含了由OpenAI API生成的175个种子指令,采用CC By NC 4.0和OpenAI使用条款。
数据集: Alpaca Data Cleaned
数据集URL: Alpaca Data Cleaned[13]数据集大小: 52K
数据集主要内容:这是Alpaca Dataset的修订版本。
数据集: Alpaca GPT-4 Data
数据集URL: Alpaca GPT-4 Data[14]数据集大小: 52K
数据集主要内容:这个数据集是由GPT-4使用Alpaca提示生成的。
数据集: Alpaca GPT-4 Data (Chinese)
数据集URL: Alpaca GPT-4 Data (Chinese)[15]数据集大小: 52K
数据集主要内容:这个数据集是由GPT-4使用由ChatGPT翻译的Alpaca中文提示生成的。
这些只是部分数据集的信息,如果你需要更多的数据集信息,。
参考资料
[1]cc_sbu_align: https://huggingface.co/datasets/Vision-CAIR/cc_sbu_align
[2]SLF5K: https://huggingface.co/datasets/JeremyAlain/SLF5K
[3]blended_skill_talk: https://huggingface.co/datasets/blended_skill_talk
[4]GSM-IC: https://github.com/google-research-datasets/GSM-IC
[5]ChatAlpaca: https://github.com/cascip/ChatAlpaca
[6]PKU-SafeRLHF-10K: https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF-10K
[7]Dolly:
https://github.com/databrickslabs/dolly/tree/master/data
[8]WebGPT: https://huggingface.co/datasets/openai/webgpt_comparisons
[9]Code Alpaca: https://github.com/sahil280114/codealpaca
[10]HC3: https://huggingface.co/datasets/Hello-SimpleAI/HC3
[11]RefGPT: https://github.com/ziliwangnlp/RefGPT
[12]Alpaca Dataset: https://github.com/tatsu-lab/stanford_alpaca
[13]Alpaca Data Cleaned: https://github.com/gururise/AlpacaDataCleaned
[14]Alpaca GPT-4 Data: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
[15]Alpaca GPT-4 Data (Chinese): https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM