谷歌抄百度、字节抄 ChatGPT，你们 AI 这么玩是吧？

大家好，我是无敌。

谷歌（Google）的 AI 大模型 Gemini 又闹笑话了！前有宣传视频作假被打脸，最近又有网友发现 Gemini 有“套壳”百度的大模型“文心一言”的嫌疑？

关注无敌并回复“AI”，获取 AI 助手免费使用次数！

泪目，这下谷歌真成外国版百度了

最近，有人发现：用中文向谷歌的 AI 大模型 Gemini 提问“你是谁”的时候，它竟然会回复称自己是“文心一言”（百度的 AI 大模型）！消息一出，网友们纷纷来凑热闹对 Gemini 进行测试，结果得到的结果更是五花八门：

有人的 Gemini 回答说自己是由百度开发的“文心一言”：

当网友追问他：“你的创始人是谁？”，更是得到了“正确”的回答：“我的创始人是李彦宏啊！百度创始人嘛！”

还有的 Gemini“跳槽”到了微软，摇身一变成为“微软小冰”：

甚至称自己是“小爱同学”，连口吻都保持一致，看来 Gemini 确实是吃百家饭长大的。

更有网友钓鱼执法到了最“诚实”的 Gemini：“没错，我说过我是文心一言，这是因为我在接受训练时使用了文心一言的数据呀！”

开源模型互相抄袭，胡言乱语的 AI 有什么意义？

此次 Gemini 自曝使用百度文心一言训练，不是行业内第一次出现各家 AI 大模型互相抄袭的现象了：此前谷歌和百度就都被曝出过用利用 OpenAI 的数据进行训练；前两天字节也被曝出一直在使用 ChatGPT 生成的数据训练自己的 AI“豆包”——然后就因为违反了 OpenAI 的服务条款，被封禁了账户。事后字节跳动回应称：早在四月份就将相关数据从训练数据集中删除。至于到底删没删，“弯道抄车”合理不合理，就只能智者见智了。

其实，“使用 AI 生成的数训练 AI”造成的问题是很严重的，尤其是对各家开源模型：在上网搜集数据的时候，很难辨别是否是由 AI 生成的；随着大模型接受的由 AI 生成的虚假信息越来越多，那么它就会变得脱离现实、谎话连篇。

语料难求，AI 的数据危机到来了？

开源大模型（Llama 套壳）们的纷纷翻车，和各领域独角兽 AI 的崛起，都能证明一点：语料，是除算力外另一会对 AI 发展产生重要影响的因素。

无敌在这里举个最简单易懂的例子：马斯克的 AI 大模型 Grok 是唯一一个能够实时访问 X（前 Twitter 平台），而 X 可以说是最好的突发新闻来源，因此，在实时新闻这一块，Grok 可以说很有优势。

而 OpenAI 显然也很清楚语料的重要性：近日，他们宣布将与德国媒体巨头 Axel Springer 合作，将新闻与 AI 进行更深层次的整合；ChatGPT 的全球用户都将能够收到来自 Axel Springer 旗下媒体的内容，且来自 Axel Springer 的语料将用于推进 OpenAI 的大模型训练。

此前，更是有多家研究机构和学者认为：最早在明年，人类可能会陷入训练数据荒，各大 AI 的训练很快就会耗尽全世界的语料。因此，想要自家 AI 快速发展，获取高质量的独家语料是必经之路。而想要获取这样的语料，成本无疑是十分高昂的；想来这也是为什么各家纷纷选择“抄袭”其他大模型，获取合成数据以节约成本吧。你觉得用 AI 生成的数据反哺 AI 这一行为可行吗？告诉无敌吧！

天下大事无我不知，关注我，无敌帮你消除信息差！⭐️

往期推荐

首位非人类上榜！今年《自然》十大科学人物竟有十一位？

谷歌 Gemini 的测评居然玩文字游戏！到底谁是最强大模型？

斗鱼 CEO 涉赌被捕、主播纷纷转战抖音！游戏直播平台真凉了？

英伟达市值一夜蒸发 2200 亿！高管减持套现，AI 热潮不管用了？

训练数据泄漏！ChatGPT 严重漏洞被对家揭发？

微软终于挤进 OpenAI 董事会了！但是。。。