ChatGPT的训练集来自哪里?

模型数据集可分为六类,分别是:维基百科、书籍、期刊、Reddit链接、Common Crawl和其他数据集。

书籍

故事型书籍由小说和非小说两大类组成,主要用于训练模型的故事讲述能力和反应能力。

杂志期刊

预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础,因为学术写作通常来说更有条理、理性和细致。

Reddit链接

WebText是一个大型数据集,它的数据是从社交媒体平台Reddit所有出站链接网络中爬取的,每个链接至少有三个赞。

代表了流行内容的风向标,对输出优质链接和后续文本数据具有指导作用。

Common Crawl

Common Crawl是2008年至今的一个网站抓取的大型数据集,数据包含原始网页、元数据和文本提取。

它的文本来自不同语言、不同领域。

其他数据集

不同于上述类别,这类数据集由GitHub等代码数据集、StackExchange 等对话论坛和视频字幕数据集组成。