整理|吴莹
ChatGPT可以打电话了;谷歌发布首个AI推理模型;苹果考虑将腾讯字节AI模型嵌入在华销售的iPhone;张一鸣被曝全力押注AI;“通义”应用团队或将从阿里云分拆;字节豆包视觉理解模型发布;智谱完成新一轮30亿元融资;月之暗面发布视觉思考模型k1……
OpenAI当地时间12月18日宣布,美国和加拿大用户可通过拨打1-800-ChatGPT(1-800-242-8478)与ChatGPT进行交谈,每月有15分钟的语音通话额度,其他国家的用户也可通过发送WhatsApp消息到同一号码,与ChatGPT进行对话。12月18日凌晨,OpenAI正式发布了o1模型的API,并且对实时API进行大升级支持WebRTC。其中,o1模型的API与之前的预览版本相比,思考成本降低了60%,并且附带高级视觉功能;GPT-4o的音频成本降低60%,而mini版本价格更是暴降了10倍。同时OpenAI还发布了全新的偏好微调方法,通过直接偏好优化算法可以让大模型更好地掌握用户的偏好风格。
当地时间12月19日,谷歌发布实验性的“Gemini 2.0 Flash Thinking”模型,这是谷歌首个AI推理模型。该模型能明确展现自己的思考过程,来解决复杂的问题,推理能力更强。该模型目前已在Google AI Studio和Vertex AI平台上线。谷歌表示,这只是推理之旅的第一步,未来这些推理能力可能会集成到Gemini 2.0系列主要模型中。据报道,多位知情人士透露,苹果公司正与腾讯和字节跳动商谈将二者的人工智能模型整合到在中国销售的iPhone中。苹果本月开始在其设备中接入OpenAI的ChatGPT,Siri会调用ChatGPT,不过ChatGPT并未在中国上市。据悉,苹果与腾讯和字节就使用二者人工智能模型的讨论还处于非常早期的阶段。近日,香港证监会网站显示,“Cool River Venture HK Limited”于2024年11月21日获得香港证监会颁发的9号牌,主要办公地址位于中环国际金融中心。这家基金由张一鸣担任董事,唯一股东为Galaxy LLC,持股比例为100%。从知情人士处获悉,字节跳动创始人张一鸣虽然已卸任CEO一职,但他一直积极参与该集团的AI战略,并已将工作重心转到大模型和AI(人工智能)的研究中。据了解,张一鸣不仅亲自负责从竞争对手公司招揽中国AI人才,还多次在内部强调追求“通用人工智能”的目标。字节跳动内部人士称,张一鸣对实现通用人工智能(AGI)极其专注。
12月18日消息,记者从知情人士处了解到,“通义”应用团队或将从阿里云分拆,并入阿里智能信息事业群。知情人士表示,通义to C的客户端以及团队等将并入阿里集团内部,而通义to B以及开源部分仍在阿里云的体系内。据此前媒体报道,调整后,通义PC及App团队与智能搜索产品“夸克”平级,原有的通义实验室仍然留在阿里云体系内。这一举措可以看作是阿里梳理内部AI to C应用的一步。
12月18日,在火山引擎Force原动力大会上,豆包发布视觉理解模型,具备更强的内容识别、理解和推理、视觉描述等能力。火山引擎总裁谭待宣布,豆包视觉理解模型价格降至0.003元/千Tokens,一元钱可处理284张720P的图片,比行业平均价格降低85%。此外,会上还宣布字节豆包新一代视频生成大模型将于明年1月正式发布。抖音旗下图片和视频生成工具——即梦AI,也在大会上展示了新一代图片生成模型和动态海报功能。12月17日,大模型独角兽智谱宣布近期完成30亿元人民币融资。新的投资方包括多家战投公司,君联资本等老股东也继续跟投。据了解,本轮融资将用于智谱GLM大模型系列的进一步研发,从回答问题到解决复杂推理、多模态任务,更好地支撑行业生态发展。迄今为止,智谱已经完成了至少12轮融资,投资方包括北京市人工智能产业投资基金、社保基金中关村自主创新基金(君联资本为基金管理人)、光速光合、美团、蚂蚁、阿里、腾讯、小米、金山、顺为、红杉、高瓴等多家知名投资机构。12月16日,月之暗面Kimi发布视觉思考模型k1。据介绍,k1模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。在数学、物理、化学等基础科学学科的基准能力测试中,初代k1模型的表现超过了全球标杆模型OpenAI o1、GPT-4o以及Claude 3.5 Sonnet。