各位好,这里是“AI新榜”的月更栏目:AIGC月刊。
你将在下文看到:
「AI大事件」为你盘点每月最值得关注的至少10条AI资讯
「AI创作」为你推荐每月值得一看的AI内容创作热门案例
「AI Talk」为你精选每月值得一读的AI领域访谈/演讲/报告等
「AI预告」为你搜罗下个月值得跟进的AI动态及产品发布(也欢迎AI同行联络爆料,完善信息,共创AI月刊,可联系微信zhangjie74510备注姓名公司)
希望能为你了解AIGC带来参考,也欢迎你在评论区交流每月使用/研究AI的感受心得~
🪐附AI产品榜,助你了解更多AI产品排名:https://www.newrank.cn/aiRank
💬附AI玩家进群方式:添加微信banggebangmei备注姓名公司,进群交流AI
1月AI大事件
1. DeepSeek-R1“国运”级创新持续霸榜
1月20日,幻方量化旗下AI公司深度求索(DeepSeek)发布最新开源模型DeepSeek-R1,以较低成本实现了比肩OpenAI GPT-o1的性能,打破了全球AI产业长期以来“堆算力”的路径依赖,成功登顶100多个国家AppStore免费应用榜,热度一直居高不下。
它还采用MIT许可协议,支持免费商用及开发,免费将推理模型开放给用户使用,OpenAI首席执行官后续评论:“不开源我们错了”。此后不久,OpenAI、谷歌等厂商纷纷跟进,增加了类似深度推理的功能。
曾在2024年制作出《黑神话·悟空》的“游戏科学”CEO冯骥盛赞该成果堪称“国运级”创新,海外著名播客主理人Lex Fridman称之为“DeepSeek时刻”,不少业内人士发言表示DeepSeek将为整个AI领域带来全新变革。
2. “Tik Tok难民”涌入后,小红书连夜上线AI翻译
小红书在TikTok海外用户因封禁风波涌入之际,迅速上线评论区一键翻译功能。该功能并非传统机翻,而是接入大模型的AI翻译,表现十分出色。
它不仅能轻松翻译“cpdd”“yyds”这类网络缩写词、中式英语,还能准确解读打乱顺序的汉字、二进制ASCII字符、盲文、摩斯密码等特殊内容,甚至连《冰与火之歌》中的“高等瓦雷利亚语”及颜表情都能精准翻译,被网友称赞:与其说是翻译,不如说是“破译”。
相关阅读:《别管了,先玩下小红书AI翻译》
小红书AI翻译表情
3. OpenAI发布o3-mini模型
2月1日凌晨,面对DeepSeek的挑战,OpenAI终于做出回应,正式发布了其最新的推理模型o3-mini。
o3-mini是o3的精简版,在科学、数学及编程等领域表现出色且成本更低,还首次引入了搜索功能的早期原型,能够找到最新答案并提供相关网络来源连接,支持调用函数、结构化输出和开发者消息等。
4. OpenAI发布智能代理产品Operator
1月底,OpenAI发布了其首款AI Agent产品Operator。该产品依托全新模型Computer-Using-Agent(CUA),融合了GPT-4o的视觉感知和高级推理强化学习能力,能够自主识别并操作网页界面,实现鼠标点击、键盘输入等一系列人机交互动作。
与传统依赖API调用或预设程序流程的Agent不同,Operator通过基于文本的思维链推理,实现了对各种网页环境的灵活适应,并支持多任务并行处理。用户只需下达任务指令,如提供购物清单、预定餐厅、搜索信息等,Operator便能独立完成从信息获取到操作执行的全过程,还能识别可疑信息并及时制止。
5. 豆包上线实时语音功能,发布Doubao-1.5-pro
1月20日,字节跳动旗下豆包上线了全新端到端实时语音通话功能,基于Doubao-1.5-realtime-voice-pro打造,在拟人化、情绪理解、情感表达等多样化场景中表现出色。
随后,豆包还发布了基础模型Doubao-1.5-pro,支持32k与256k上下文长度,在知识、代码、推理、中文等多个测评基准上,综合得分优于GPT-4o、Claude 3.5 Sonnet等模型;新版视觉模型Doubao-1.5-vision-pro原生支持任意分辨率与长宽比图像,显著提升了图像理解和推理能力;实时语音模型Doubao-1.5-realtime-voice-pro实现了精准语音对话和多样化场景适应。另有轻量级1.5-lite以更低延迟和成本满足日常应用需求。
6. 月之暗面发布Kimi k1.5视觉思考模型
1月20日,月之暗面发布了Kimi k系列最新模型k1.5,在数学、代码、视觉和通用推理等任务上有了不小的提升。
技术上,Kimi k1.5采用了长上下文扩展策略,将RL的上下文窗口延伸至128k tokens,并利用部分展开技术提高训练效率;同时,通过改进的策略优化方法——在线镜像下降,有效实现了长链条思维的规划、反思与修正,构建了一个简洁高效的RL框架,避免了传统方法中依赖复杂搜索或价值函数的弊端。
7. 阿里通义除夕夜发布Qwen2.5-Max,开源视觉理解旗舰
1月29日,阿里云通义千问发布新旗舰模型Qwen2.5-Max,在知识、编程、综合能力、人类偏好对齐等测试上,其指令模型版本比肩Claude-3.5-Sonnet ,几乎全面超越GPT-4o、DeepSeek-V3及Llama-3.1-405B。
此外,通义还开源了全新的视觉模型Qwen2.5-VL,共3B、7B和72B三个尺寸版本。其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,超越了GPT-4o与Claude3.5。
8. 阶跃星辰更新Step系全家桶,连发6款模型
临近春节,阶跃星辰升级Step系基座模型全家桶,一口气接连上新了6款模型,具体介绍如下:
1)Step-1o:多模态理解与生成模型,其视觉版本Step-1o Vision架构升级,能精准识别图像内容、理解文化隐喻、进行视觉推理。
2)Step-1o Audio:语音模型,能感知情绪,支持多语种和多方言对话,通话低延迟、声音自然且具个性化风格。
3)Step R-mini:首款推理模型,在数学基准测试和代码任务上表现出色,超过o1-preview,比肩OpenAI o1-mini,在文科内容创作和视觉推理方面也有良好表现。
4)Step-Video V2:视频生成模型,在复杂运动、人物刻画、文字生成和镜头表现力上实现升级。
5)Step-2 mini:小参数语言模型,参数量仅为Step-2的3%,但保有80%以上的模型性能,生成速度快,推理成本低,已开放API接口。
6)Step文学大师:专为创作而生的语言模型,能创作逻辑严密、风格独特的内容。
9. GLM-PC电脑智能体大模型
1月23日,智谱GLM-PC v1.1正式上线,作为号称全球首个面向公众、回车即用的电脑智能体,其架构基于多模态大模型CogAgent,能够像人类一样“观察”和“操作”计算机,协助用户高效完成各类电脑任务。GLM-PC v1.1 版本进一步强化了深度思考模式下的规划、推理、反思能力,能稳定高效地应对复杂场景与任务。
10. 讯飞发布首个全国产算力深度推理模型X1
1月15日,科大讯飞发布了首个在全国产算力上训练的深度模型X1。该模型在多类数学测试中表现不错,包括2024高考数学题、AIME数学竞赛题以及高中奥数题。目前,X1已迅速投入实际应用:在教育领域,已落地多所中学数学教研组,赢得一线教师认可;医疗场景中,基于知识反思和CoT,结合医疗循证推理技术,其专科辅助诊断和复杂病例内涵质控准确率达90%,后续还将推出升级版。
11. CES 2025海量AI产品亮相,AI宠物成为黑马
1月7日至10日,有“全球科技第一展”之称的全球消费电子展(CES)在美国拉斯维加斯举行,展示了一系列结合生成式AI技术的硬件产品。今年包括AI PC、AI眼镜、AI宠物以及智能家庭领域的新品赢得了不少用户关注。
其中AI机器宠物以其同时切中“AI情感陪伴”和“智能硬件”两大热点,成为了CES 2025上当之无愧的黑马。业内普遍认为,AI宠物或将成为大模型在硬件端落地的优秀场景,多家上市公司也在加紧布局,推动了行业的蓬勃发展。
相关阅读:《不生孩子的年轻人,开始养AI宠物了》
1月AI创作
1. 用DeepSeek整活儿
DeepSeek的爆火,除了本身推理能力、免费策略以外,各种围绕它产生的整活儿作品也对传播功不可没。
例如,B站UP主“Ai艺术谭墨”使用DeepSeek语言能力模仿贴吧嘴臭老哥,仅用一段30秒的使用DeepSeek录屏就获得了140多万的浏览量;UP主“山中冷月微”使用DeepSeek创作诗歌,成功“把文科生整破防”了;UP主“暗色调”通过AI重编了黄宏、侯耀文的经典小品《打扑克》,用充满幽默感的语言讽刺DeepSeek出现后OpenAI的各种反应,得到了网友的一致好评。
当DeepSeek攻击性拉满
还有一大批关于如何高效使用DeepSeek、用DeepSeek赚钱的内容,在短短几天内集中获得了一大波流量。
相关阅读:《DeepSeek带动AI搞钱热潮?我们总结了用AI做副业的几个方向》
2. 民俗文化融入具身智能,宇树机器人登上春晚
今年春晚,活泼又喜感、会扭秧歌、会转手绢的人形机器人成为了不少人关注的焦点。16个机器人穿着喜庆的服饰,动作全程精准同步,与16名舞蹈演员合作带来了一场碳基生命与“硅基生命”合作的《秧BOT》,网友笑称其为“最魔性节目”。
除此之外,今年春晚还通过30多台相机捕捉与虚拟运镜,创造出了巴黎奥运会同款的“子弹时间”效果;现场还有将画面数秒内转化为油画风格、动态背景生成等多项新应用;首次无障碍转播通过AR虚拟手语和AI语音字幕,确保视障和听障观众也能享受乐趣。
3. 拜赛博财神,享AI祝福
除了春晚使用AI锦上添花,各大平台也纷纷推出应景的春节玩法,例如AI写春联、AI红包、AI换装等,还有应用将AI语音与春节融合,制作出诸如“财神来电”玩法,赛博财神明确表示,将在新一年为我们的发财事业“暗中发力”。
“财神来电”玩法
还有一些利用换脸技术,让用户自己就可以“成为财神”;各种爆金币、送祝福的AI视频特效成为不少人的春节新宠。例如这条使用即梦AI生成的“财神进门”作品就在抖音平台获得了超过56万观众的喜爱,评论区至今仍有用户“接”祝福。
相关阅读:《春节新体验:让AI陪你拜年、送祝福、接财神》……
抖音博主“财神驾到”制作的AI视频
4. AI辅助作品披头士《Now and Then》斩获格莱美最佳摇滚表演奖
在67届格莱美音乐盛典上,著名摇滚乐队披头士凭借AI修复的歌曲《Now and Then》获得了格莱美最佳摇滚表演奖。
代替约翰·列侬领奖的肖恩·列侬(Sean Lennon)
据了解,这首歌最初源于约翰·列侬(John Lennon)在20世纪70年代末录制的一段小样,后来在电影制作人彼得·杰克逊及其音效团队的助力下,团队开发的机器学习技术,分离并修复列侬录音中的不同元素,才使歌曲得以在2023年正式发行。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/mibHj077gz7B5CbuOheLltMMr9vichpWbwKwjo0ArYKNz8lYw2DdXLzgxNzMw6SY56QV6fqXk7Wicpiaz3DDAoNiavg/640?wx_fmt=png)
1月AI Talk
1. 诺奖得主AI之父访谈:AI已具备主观体验,中国AI已接近美国https://news.qq.com/rain/a/20250119A01CHA001月18日,著名图灵奖、诺奖获得者,被称为“AI之父”的杰弗里·辛顿(Geoffrey Hinton)在一场特别访谈中表示,人类对AI的认知存在严重误区。“很多人都非常确定AI没有‘主观体验’或‘意识’,并以此自我安慰。但讽刺的是,他们连意识是什么都说不清,却笃定AI不具备。”AI系统会追求获取更多的控制权,已有证据显示它们能够刻意欺骗;中国AI发展已经接近美国水平,芯片限制必然加速中国在AI领域迎头赶上;AI将重塑就业市场,但同时也会在医疗、气候变化等领域带来重大突破。2. 埃隆·马斯克CES2025谈AI:发展速度惊人,可能引发全民高收入在CES 2025的线上访谈中,埃隆·马斯克分享了他对未来科技发展的见解:人工智能发展速度惊人;未来将依赖AI自我生成合成数据来进步;预测AI将在未来几年内完成任何认知任务;可能引发全民高收入而非全民基本收入;脑机接口最终将提高人类的认知带宽;希望X(Twitter)成为全球“意识”的平台。https://blog.samaltman.com/reflections
1月6日,OpenAI首席执行官山姆·奥特曼(Sam Altman)在其博客上发表了一篇长文,谈及OpenAI成立以来的发展历程、人员变动风波及OpenAI在AGI道路上的进展与挑战,相信AGI将会成为人类历史上最具影响力的技术。他还表示,OpenAI“已经知道如何构建AGI”,在2025年“我们可能会看到首批AI智能体加入到劳动力市场”,并在实质上改变公司的产出。https://www.weforum.org/meetings/world-economic-forum-annual-meeting-2025/sessions/debating-technology/Meta首席AI科学家杨立昆(Yann LeCun)在达沃斯论坛上发表演讲时预测,今天的生成式AI模型(大型语言模型LLM)将很快过时。他认为,我们正处于一种新的AI范式的边缘,它将从简单的模式识别进入实际的推理、规划和现实世界的理解。他还将未来十年视为“机器人技术的十年”,人工智能系统不仅会处理信息,还会以前所未有的方式与物理世界互动。https://www.bilibili.com/video/BV17KrmYzEU9/https://mp.weixin.qq.com/s/qEMs1jzXHFHRQXvhuTf0IQ1月7日,英伟达CEO黄仁勋在CES 2025展会现场发表了开幕演讲,带来RTX50系显卡、Project DIGITS AI超级计算机、Cosmos物理世界理解系统以及基于Blackwell架构的NVL72推理芯片等产品。次日,黄仁勋还在沟通会中对发布会上的细节进行了进一步的解读。他认为,当前AI正由感知生成向具备推理决策的Agentic AI转型;token技术驱动多模态信息转换,Transformer将革新计算模式;新一代Blackwell GPU大幅提升算力能效,使数据处理与训练成本大幅下降;AI技术深度融入机器人、自动驾驶及工业智能等领域,促进数字孪生与物理模拟革新。6. 吴恩达评DeepSeek爆火:一味限制可能使中国占主导地位原文链接:https://www.deeplearning.ai/the-batch/issue-286/1月29日,斯坦福计算机科学教授吴恩达发文论述DeepSeek-R1发布带来的启示。他认为DeepSeek-R1的发布,凸显了中国在生成式AI领域正在赶上美国的趋势,多款国产模型实力不断提升;开源模型推动基础模型商品化,显著降低训练费用,会为应用开发创造新机遇;算法创新正引领AI发展,一味堆数据算力非唯一方向,突破创新才是长远之计。他还警示道,美国若持续限制开源,可能使中国在AI供应链中占主导地位,进而影响全球技术及价值观竞争。![](http://mmbiz.qpic.cn/sz_mmbiz_png/mibHj077gz7B5CbuOheLltMMr9vichpWbwFJwxZ4ibcouL03akwH3W8xWlLsZLqSOibMVvpxH7Lh3CHhXuZI3nQX3w/640?wx_fmt=png)
下月AI预告
1. 为应对AI竞争,OpenAI CEO将再次开启“全球巡回之旅”
彭博社2月1日消息,OpenAI首席执行山姆·奥特曼(Sam Altman)将在接下来的几周里,频繁往返东京、新德里、迪拜和德国,旨在与投资者、开发者和行业领袖交流。
这是奥特曼担任OpenAI CEO后的第二次全球巡回之旅。据知情人士透露,他大部分的会谈将集中在与投资者的交流上,表明OpenAI依然相信“拥有最多资源的公司最终会占据主导地位”。
2. 亚马逊将于2月26日发布新一代Alexa生成式AI服务,使用Claude模型
亚马逊已发出人工智能主题活动的邀请,计划在2月26日的活动中推出其下一代Alexa生成式人工智能服务。据了解,亚马逊没有完全依赖其内部人工智能技术,而是采用了Anthropic公司的Claude人工智能模型。
自2014年推出以来,Alexa已成为应用最广泛的语音助手之一。然而,随着ChatGPT、Claude和Gemini等生成式人工智能产品的大量涌现,Alexa逐渐落后。对亚马逊来说,Alexa能否通过变革取得成功至关重要。
3. 世界AI行动峰会将在法国举行
2月10日至11日,人工智能行动峰会将在法国举行。据法国24新闻电视台报道称,出席此次人工智能行动峰会的业内人士包括OpenAI CEO奥特曼、谷歌CEO皮查伊、诺奖获得者哈萨比斯等。法新社表示,该峰会旨在为正在应对来自美国和中国人工智能挑战的欧洲敲响“警钟”。
4. 全球开发者先锋大会即将在上海开幕
2月21日至23日,2025春季GDC(全球开发者先锋大会)将以“模塑全球 无限可能”为主题,在上海徐汇西岸召开,大会定位 “社区的社区”,聚焦AI技术前沿,活动包括开幕式、企业讲坛、开发者活动等,旨在为开发者提供应用场景、技术交流和产业合作平台。
大会官网:www.globalaidc.com
ps. 欢迎AI同行联络爆料,完善信息,共创AI月刊,可联系微信zhangjie74510(备注姓名公司)
「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。