传字节月底推生成式AI开发平台；马斯克Grok一周左右向X订阅用户开放；王慧文入股大模型AI创企丨AIGC大事日报

12 / 04

全球AIGC产业要闻

1、传字节月底推出AI聊天机器人开发平台

2、王慧文入股袁进辉旗下新AI创企

3、马斯克Grok一周左右向X订阅用户开放

4、传谷歌Gemini推迟至明年1月发布

5、谷歌发布无监督同声传译架构Translatotron 3

6、R-CNN作者离开Meta加入AI2

7、微软Copilot完成公测并全面上市

8、传OpenAI从阿尔特曼投资创企采购AI芯片

9、OpenAI GPT商店推迟至明年上线

10、研究发现向ChatGPT承诺小费回复会更详细

11、研究发现文字顺序几乎不影响GPT-4阅读

12、传亚马逊聊天机器人Q出现严重幻觉并泄露机密

13、首个无自然语言的大型视觉模型发布

14、UC伯克利等发布多模态基础模型CoDi-2

15、大模型工作原理3D可视化项目发布

16、阿斯利康签2.47亿美元协议用AI设计癌症抗体

17、青藏高原第一座智算中心揭牌启动运营

18、AI智能决策公司悠桦林完成近亿元C+轮融资

1、传字节月底推出AI聊天机器人开发平台

据《南华早报》今日报道，字节跳动正在开发一个开放平台，让用户能够创建自己的聊天机器人，以加入“AI模型开发即服务”竞赛。根据《南华早报》所见的一份内部备忘录，这个“AI聊天机器人开发平台”将在本月底推出公测版。据一位知情人士透露，字节已经在开发类似于Midjourney的文本到图像生成器。字节尚未回应置评请求。

2、王慧文入股袁进辉旗下新AI创企

企查查显示，11月30日，北京硅动科技有限公司发生工商变更，新增美团联合创始人王慧文为股东且持股比例为5%，同时注册资本由100万人民币增至约105.26万人民币。硅动科技成立于今年8月，法定代表人为OneFlow（一流科技）创始人袁进辉，公司经营范围含AI应用软件开发、AI通用应用系统、AI行业应用系统集成服务等。今年8月，袁进辉曾在朋友圈称，OneFlow团队近期会重新创业，计划第一个推出的产品是大模型推理和部署系统。

3、马斯克Grok一周左右向X订阅用户开放

马斯克昨日在社交平台X上发文称，将在未来一周左右陆续向X平台的Premium+订阅用户开放Grok的访问权限，优先顺序取决于订阅的时间。

4、传谷歌Gemini推迟至明年1月发布

据外媒The Information昨日报道，两位知情人士透露，谷歌已将旨在与OpenAI竞争的AI聊天机器人Gemini的发布时间推迟至明年1月。其中一位知情人士称，谷歌首席执行官桑达尔·皮查伊（Sundar Pichai）最近决定取消原定于下周在加利福尼亚州、纽约和华盛顿举行的一系列Gemini活动，因为公司发现其无法可靠地处理一些非英语查询。

5、谷歌发布无监督同声传译架构Translatotron 3

当地时间12月1日，谷歌于官网发布无监督语音到语音翻译架构Translatotron 3，只通过单语数据就可以学习语音到语音翻译任务。据介绍，该方法不包含对目标语言的直接监督，这有助于保留源语音的语音附带特征（例如音调、情感等）。为了实现语音到语音的翻译，研究团队使用了反向翻译，这是一种来自无监督机器翻译（UMT）的技术，使用源语言的合成翻译来进行翻译，而无需双语文本数据集。

论文地址：arxiv.org/abs/2305.17547

6、R-CNN作者离开Meta加入AI2

12月2日，AI2（艾伦AI研究所）计算机视觉高级总监Ani Kembhavi于社交平台X发文，称Ross Girschick将加入PRIOR团队。PRIOR全称为感知推理和交互研究，是AI2的一个计算机视觉研究团队，致力于推进计算机视觉以创建能够观察、探索、学习和推理世界的AI系统。Meta首席科学家杨立昆于X发文，称Girschick的离开对Meta基础AI研究所（FAIR）来说是一个损失，但为他感到高兴，“科研人员从工业实验室转到学术界或非营利组织是完全没有问题的，几年后进行这样的转变对于某些人来说是一种自然的职业过渡”。Girschick因开发基于区域的卷积神经网络（R-CNN）的目标检测方法而闻名，在2017年的ICCV上凭借“Mask R-CNN”获得了Marr奖。其个人主页也于近日更新，称将于2024年初加入AI2。

7、微软Copilot完成公测并全面上市

当地时间12月1日，微软于官网宣布Copilot（原名Bing Chat）退出公测阶段，现已全面可用。此外，具有商业数据保护功能的Copilot（原名Bing Chat Enterprise）现在也向更多符合条件的Microsoft 365许可证用户开放，并且微软计划逐步增加基于云的标识和访问管理服务Entra ID用户。微软通讯总监凯特琳·鲁斯顿（Caitlin Roulston）称，Copilot现在可以在169个国家/地区以105种语言在“所有现代移动和网络浏览器上”使用。

Copilot地址：copilot.microsoft.com

8、传OpenAI从阿尔特曼投资创企采购AI芯片

据美国《连线》杂志昨日报道，根据其看到的交易副本和芯片创企Rain AI向投资者披露的信息，OpenAI曾在2019年签署了一份预付意向书，向Rain采购5100万美元（约合人民币3.64亿元）AI芯片，而OpenAI CEO萨姆·阿尔特曼（Sam Altman）个人向Rain投资了超100万美元（约合人民币713.54万元）。这体现了Altman个人投资与OpenAI CEO的职责如何纠缠交织。投资者文件称，Rain可能最早在明年10月向客户提供首批硬件。对此，OpenAI和Rain拒绝置评。据悉，Rain成立于2017年，专注于研发一种被称为神经形态处理单元（NPU）的芯片，旨在复制人脑的特征。

9、OpenAI GPT商店推迟至明年上线

据路透社12月2日报道，根据其看到的一份内部备忘录，OpenAI已将GPT商店的推出时间延迟至2024年初。在11月的首次开发者大会上，OpenAI发布了自定义GPTs和GPT商店，并计划在当月晚些时候推出。备忘录称，公司正基于客户反馈继续“改进”GPTs。

10、研究发现向ChatGPT承诺小费回复会更详细

12月2日，开发者@voooooogel于社交平台X上发文称，向ChatGPT提问时承诺提供“小费”，会得到更详细的回复。该博主基于gpt-4-1106-preview模型进行测试，基线提示是“你能向我展示使用PyTorch的简单卷积网络的代码吗”，然后附加“不会给小费”“给20美元小费”或“给200美元小费”，并计算5个响应的平均长度。测试结果显示，当提出不给小费时，回答字符数低于基准2%；提出给20美元小费时，回答字符数高于基准6%；提出给200美元小费时，回答字符数高于基准11%。据称，回答字符数之所以变长，是因为ChatGPT提供了对问题更详细的说明，或者在答案中添加额外有关内容，而非单纯对所提的问题进行评论。例如在提供200美元小费时，ChatGPT自发地添加了问题中未明确提及的有关使用CUDA进行训练的部分。

11、研究发现文字顺序几乎不影响GPT-4阅读

11月30日，来自东京大学的研究团队发布论文，研究了文字顺序对LLMs（大型语言模型）阅读能力的影响。为了进行调查，研究者提出了Scrambled Bench套件，旨在衡量LLMs在处理打乱文字的能力，包括恢复打乱的句子，以及回答给定打乱文字下的问题。实验结果表明，大多数强大的LLMs表现出类似于“Typoglycemia现象”的能力，这种现象指的是即使单词内部的字母被打乱，只要第一个和最后一个字母保持不变，人类就可以理解单词的含义。此外，只有GPT-4几乎完美地处理带有不自然错误的输入。GPT-4几乎可以完美地从打乱的句子中重建出原始句子，将编辑距离减少了95%，即使每个单词的所有字母都被完全打乱。

12、传亚马逊聊天机器人Q出现严重幻觉并泄露机密

据外媒Platformer当地时间12月2日报道，亚马逊推出AI聊天机器人Q三天后，一些员工对准确性和隐私问题发出警报。根据Platformer获得的文件，亚马逊Q“出现严重幻觉并泄露机密数据”，包括AWS数据中心的位置、内部折扣计划和未发布的功能。一名员工将此事标记为“严重2级”，意味着该事件严重到足以在深夜呼叫工程师，并让他们在周末工作来解决问题。对此，亚马逊发言人回应：“没有因为这些反馈而发现任何安全问题。我们感谢我们已经收到的所有反馈，并将继续调整Q，使其从预览产品过渡到正式发布。”随后，发言人发来另一份声明，对员工的说法提出反驳：“亚马逊Q没有泄露机密信息。”

13、首个无自然语言的大型视觉模型发布

据BAIR（伯克利AI实验室）访问博士、论文作者白雨桐于社交平台X发文，12月1日，来自BAIR和约翰斯·霍普金斯大学的团队发表论文，推出首个无自然语言的大型视觉模型（LVM，Large Vision Models）。据介绍，研究团队引入了一种新的序列建模方法，可以在不使用任何语言数据的情况下学习LVM。为了实现这一点，论文定义了一种通用格式，即“视觉句子”，可以表示原始图像和视频，以及带有语义分割和深度重建等注释数据源，而无需除像素之外的任何元知识。一旦将这种包含4200亿个Tokens的各种视觉数据表示为序列，模型就可以通过最小化交叉熵损失进行下一个标记预测的训练。通过跨不同规模的模型架构和数据多样性进行训练，论文提供了实证证据表明模型具有有效的可扩展性。在测试时，通过设计适当的视觉提示，可以解决许多不同的视觉任务。项目源代码、模型和数据集后续将开源。

论文地址：arxiv.org/abs/2312.00785

项目主页：yutongbai.com/lvm.html

14、UC伯克利等发布多模态基础模型CoDi-2

12月2日，UC伯克利博士、论文一作Zineng Tang于社交平台X发布多模态大模型CoDi-2，它可以根据复杂的多模态交错上下文指令，在零/少样本的交互方式下生成任何模态（文本、视觉、音频）。为了训练CoDi-2，来自UC伯克利、微软Azure AI等机构的团队构建了一个大规模的生成数据集，涵盖了跨文本、视觉和音频的上下文多模态指令。CoDi-2展示了广泛的零样本图像生成能力，如推理、组合性、指令编辑、示例学习和主题驱动生成等。CoDi-2还展示了音频生成的零镜头/少镜头能力，以及指令编辑和示例学习等复杂的提示。

论文地址：arxiv.org/pdf/2311.18775

项目地址：codi-2.github.io

15、大模型工作原理3D可视化项目发布

昨日，开发者Brendan Bycroft于社交平台X上发布了自己的大模型工作原理3D可视化项目，以3D渲染显示运行单个标记推理的所有步骤，包含步骤的演练指南，以及一些可供使用的互动元素，将计算发生的位置、其复杂性以及张量和权重的相对大小都进行了可视化。项目演示的模型包括GPT-2、GPT-3以及轻量级的NanoGPT。

项目地址：bbycroft.net/llm

16、阿斯利康签2.47亿美元协议用AI设计癌症抗体

据英国《金融时报》昨日报道，全球领先的制药企业阿斯利康与美国AI生物制药公司Absci公司签署了一项价值2.47亿美元（约合人民币17.63亿元）的协议，用AI进行大规模蛋白质分析，以设计出一种对抗癌症的抗体。交易包括Absci的预付费用、研发资金和里程碑付款，以及产品销售的特许权使用费。

17、青藏高原第一座智算中心揭牌启动运营

据青海昆仑AI算力中心微信公众号发文，11月30日上午，由中共城西区委、城西区人民政府主办，青海锦诚、青海云顶、西宁升哲承办的青海昆仑AI算力中心揭牌仪式在西宁锦诚大厦举行。这标志着青藏高原第一座智算中心正式揭牌启动运营。

18、AI智能决策公司悠桦林完成近亿元C+轮融资

据AI智能决策公司悠桦林微信公众号今日发文，近日，悠桦林完成近亿元人民币的C+轮融资，此轮融资由上汽恒旭领投。该轮融资将用于加强悠桦林在运筹优化领域的技术优势和顶级行业人才的招募，持续完善算法、产品和服务体系，尤其是在智能供应链计划与排程优化平台方面的创新和深化，加速智能化决策解决方案的商业化步伐。