其实,“使用 AI 生成的数训练 AI”造成的问题是很严重的,尤其是对各家开源模型:在上网搜集数据的时候,很难辨别是否是由 AI 生成的;随着大模型接受的由 AI 生成的虚假信息越来越多,那么它就会变得脱离现实、谎话连篇。
语料难求,AI 的数据危机到来了?
开源大模型(Llama 套壳)们的纷纷翻车,和各领域独角兽 AI 的崛起,都能证明一点:语料,是除算力外另一会对 AI 发展产生重要影响的因素。
无敌在这里举个最简单易懂的例子:马斯克的 AI 大模型 Grok 是唯一一个能够实时访问 X(前 Twitter 平台),而 X 可以说是最好的突发新闻来源,因此,在实时新闻这一块,Grok 可以说很有优势。
而 OpenAI 显然也很清楚语料的重要性:近日,他们宣布将与德国媒体巨头 Axel Springer 合作,将新闻与 AI 进行更深层次的整合;ChatGPT 的全球用户都将能够收到来自 Axel Springer 旗下媒体的内容,且来自 Axel Springer 的语料将用于推进 OpenAI 的大模型训练。
此前,更是有多家研究机构和学者认为:最早在明年,人类可能会陷入训练数据荒,各大 AI 的训练很快就会耗尽全世界的语料。因此,想要自家 AI 快速发展,获取高质量的独家语料是必经之路。而想要获取这样的语料,成本无疑是十分高昂的;想来这也是为什么各家纷纷选择“抄袭”其他大模型,获取合成数据以节约成本吧。你觉得用 AI 生成的数据反哺 AI 这一行为可行吗?告诉无敌吧!