社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  aigc

AIGC月刊:DeepSeek成绝对主角;小红书AI翻译打通地球村(25.1)

AI新榜 • 1 周前 • 58 次点击  


各位好,这里是“AI新榜”的月更栏目:AIGC月刊。


你将在下文看到:


「AI大事件」为你盘点每月最值得关注的至少10条AI资讯


「AI创作」为你推荐每月值得一看的AI内容创作热门案例


「AI Talk」为你精选每月值得一读的AI领域访谈/演讲/报告等


「AI预告」为你搜罗下个月值得跟进的AI动态及产品发布(也欢迎AI同行联络爆料,完善信息,共创AI月刊,可联系微信zhangjie74510备注姓名公司)


希望能为你了解AIGC带来参考,也欢迎你在评论区交流每月使用/研究AI的感受心得~


🪐附AI产品榜,助你了解更多AI产品排名:https://www.newrank.cn/aiRank


💬附AI玩家进群方式:添加微信banggebangmei备注姓名公司,进群交流AI




1月AI大事件


1. DeepSeek-R1“国运”级创新持续霸榜


1月20日,幻方量化旗下AI公司深度求索(DeepSeek)发布最新开源模型DeepSeek-R1,以较低成本实现了比肩OpenAI GPT-o1的性能,打破了全球AI产业长期以来“堆算力”的路径依赖,成功登顶100多个国家AppStore免费应用榜,热度一直居高不下。


它还采用MIT许可协议,支持免费商用及开发,免费将推理模型开放给用户使用,OpenAI首席执行官后续评论:“不开源我们错了”。此后不久,OpenAI、谷歌等厂商纷纷跟进,增加了类似深度推理的功能。


曾在2024年制作出《黑神话·悟空》的“游戏科学”CEO冯骥盛赞该成果堪称“国运级”创新,海外著名播客主理人Lex Fridman称之为“DeepSeek时刻”,不少业内人士发言表示DeepSeek将为整个AI领域带来全新变革。



2. “Tik Tok难民”涌入后,小红书连夜上线AI翻译

小红书在TikTok海外用户因封禁风波涌入之际,迅速上线评论区一键翻译功能。该功能并非传统机翻,而是接入大模型的AI翻译,表现十分出色。

它不仅能轻松翻译“cpdd”“yyds”这类网络缩写词、中式英语,还能准确解读打乱顺序的汉字、二进制ASCII字符、盲文、摩斯密码等特殊内容,甚至连《冰与火之歌》中的“高等瓦雷利亚语”及颜表情都能精准翻译,被网友称赞:与其说是翻译,不如说是“破译”。

相关阅读:《别管了,先玩下小红书AI翻译》

小红书AI翻译表情


3. OpenAI发布o3-mini模型


2月1日凌晨,面对DeepSeek的挑战,OpenAI终于做出回应,正式发布了其最新的推理模型o3-mini。


o3-mini是o3的精简版,在科学、数学及编程等领域表现出色且成本更低,还首次引入了搜索功能的早期原型,能够找到最新答案并提供相关网络来源连接,支持调用函数、结构化输出和开发者消息等。



4. OpenAI发布智能代理产品Operator


1月底,OpenAI发布了其首款AI Agent产品Operator。该产品依托全新模型Computer-Using-Agent(CUA),融合了GPT-4o的视觉感知和高级推理强化学习能力,能够自主识别并操作网页界面,实现鼠标点击、键盘输入等一系列人机交互动作。


与传统依赖API调用或预设程序流程的Agent不同,Operator通过基于文本的思维链推理,实现了对各种网页环境的灵活适应,并支持多任务并行处理。用户只需下达任务指令,如提供购物清单、预定餐厅、搜索信息等,Operator便能独立完成从信息获取到操作执行的全过程,还能识别可疑信息并及时制止。



5. 豆包上线实时语音功能,发布Doubao-1.5-pro


1月20日,字节跳动旗下豆包上线了全新端到端实时语音通话功能,基于Doubao-1.5-realtime-voice-pro打造,在拟人化、情绪理解、情感表达等多样化场景中表现出色。



随后,豆包还发布了基础模型Doubao-1.5-pro,支持32k与256k上下文长度,在知识、代码、推理、中文等多个测评基准上,综合得分优于GPT-4o、Claude 3.5 Sonnet等模型;新版视觉模型Doubao-1.5-vision-pro原生支持任意分辨率与长宽比图像,显著提升了图像理解和推理能力;实时语音模型Doubao-1.5-realtime-voice-pro实现了精准语音对话和多样化场景适应。另有轻量级1.5-lite以更低延迟和成本满足日常应用需求。


6. 月之暗面发布Kimi k1.5视觉思考模型


1月20日,月之暗面发布了Kimi k系列最新模型k1.5,在数学、代码、视觉和通用推理等任务上有了不小的提升。



技术上,Kimi k1.5采用了长上下文扩展策略,将RL的上下文窗口延伸至128k tokens,并利用部分展开技术提高训练效率;同时,通过改进的策略优化方法——在线镜像下降,有效实现了长链条思维的规划、反思与修正,构建了一个简洁高效的RL框架,避免了传统方法中依赖复杂搜索或价值函数的弊端。


7. 阿里通义除夕夜发布Qwen2.5-Max,开源视觉理解旗舰


1月29日,阿里云通义千问发布新旗舰模型Qwen2.5-Max,在知识、编程、综合能力、人类偏好对齐等测试上,其指令模型版本比肩Claude-3.5-Sonnet ,几乎全面超越GPT-4o、DeepSeek-V3及Llama-3.1-405B。



此外,通义还开源了全新的视觉模型Qwen2.5-VL,共3B、7B和72B三个尺寸版本。其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,超越了GPT-4o与Claude3.5。



8. 阶跃星辰更新Step系全家桶,连发6款模型


临近春节,阶跃星辰升级Step系基座模型全家桶,一口气接连上新了6款模型,具体介绍如下:


1)Step-1o:多模态理解与生成模型,其视觉版本Step-1o Vision架构升级,能精准识别图像内容、理解文化隐喻、进行视觉推理。

2)Step-1o Audio:语音模型,能感知情绪,支持多语种和多方言对话,通话低延迟、声音自然且具个性化风格。

3)Step R-mini:首款推理模型,在数学基准测试和代码任务上表现出色,超过o1-preview,比肩OpenAI o1-mini,在文科内容创作和视觉推理方面也有良好表现。

4)Step-Video V2:视频生成模型,在复杂运动、人物刻画、文字生成和镜头表现力上实现升级。

5)Step-2 mini:小参数语言模型,参数量仅为Step-2的3%,但保有80%以上的模型性能,生成速度快,推理成本低,已开放API接口。

6)Step文学大师:专为创作而生的语言模型,能创作逻辑严密、风格独特的内容。 


9. GLM-PC电脑智能体大模型


1月23日,智谱GLM-PC v1.1正式上线,作为号称全球首个面向公众、回车即用的电脑智能体,其架构基于多模态大模型CogAgent,能够像人类一样“观察”和“操作”计算机,协助用户高效完成各类电脑任务。GLM-PC v1.1 版本进一步强化了深度思考模式下的规划、推理、反思能力,能稳定高效地应对复杂场景与任务。


10. 讯飞发布首个全国产算力深度推理模型X1


1月15日,科大讯飞发布了首个在全国产算力上训练的深度模型X1。该模型在多类数学测试中表现不错,包括2024高考数学题、AIME数学竞赛题以及高中奥数题。目前,X1已迅速投入实际应用:在教育领域,已落地多所中学数学教研组,赢得一线教师认可;医疗场景中,基于知识反思和CoT,结合医疗循证推理技术,其专科辅助诊断和复杂病例内涵质控准确率达90%,后续还将推出升级版。



11. CES 2025海量AI产品亮相,AI宠物成为黑马


1月7日至10日,有“全球科技第一展”之称的全球消费电子展(CES)在美国拉斯维加斯举行,展示了一系列结合生成式AI技术的硬件产品。今年包括AI PC、AI眼镜、AI宠物以及智能家庭领域的新品赢得了不少用户关注。


其中AI机器宠物以其同时切中“AI情感陪伴”和“智能硬件”两大热点,成为了CES 2025上当之无愧的黑马。业内普遍认为,AI宠物或将成为大模型在硬件端落地的优秀场景,多家上市公司也在加紧布局,推动了行业的蓬勃发展。


相关阅读:《不生孩子的年轻人,开始养AI宠物了》



1月AI创作


1. 用DeepSeek整活儿


DeepSeek的爆火,除了本身推理能力、免费策略以外,各种围绕它产生的整活儿作品也对传播功不可没。


例如,B站UP主“Ai艺术谭墨”使用DeepSeek语言能力模仿贴吧嘴臭老哥,仅用一段30秒的使用DeepSeek录屏就获得了140多万的浏览量;UP主“山中冷月微”使用DeepSeek创作诗歌,成功“把文科生整破防”了;UP主“暗色调”通过AI重编了黄宏、侯耀文的经典小品《打扑克》,用充满幽默感的语言讽刺DeepSeek出现后OpenAI的各种反应,得到了网友的一致好评。


当DeepSeek攻击性拉满


还有一大批关于如何高效使用DeepSeek、用DeepSeek赚钱的内容,在短短几天内集中获得了一大波流量。


相关阅读:《DeepSeek带动AI搞钱热潮?我们总结了用AI做副业的几个方向》



2. 民俗文化融入具身智能,宇树机器人登上春晚


今年春晚,活泼又喜感、会扭秧歌、会转手绢的人形机器人成为了不少人关注的焦点。16个机器人穿着喜庆的服饰,动作全程精准同步,与16名舞蹈演员合作带来了一场碳基生命与“硅基生命”合作的《秧BOT》,网友笑称其为“最魔性节目”。



除此之外,今年春晚还通过30多台相机捕捉与虚拟运镜,创造出了巴黎奥运会同款的“子弹时间”效果;现场还有将画面数秒内转化为油画风格、动态背景生成等多项新应用;首次无障碍转播通过AR虚拟手语和AI语音字幕,确保视障和听障观众也能享受乐趣。


春晚保留节目《难忘今宵》中的AI元素


3. 拜赛博财神,享AI祝福


除了春晚使用AI锦上添花,各大平台也纷纷推出应景的春节玩法,例如AI写春联、AI红包、AI换装等,还有应用将AI语音与春节融合,制作出诸如“财神来电”玩法,赛博财神明确表示,将在新一年为我们的发财事业“暗中发力”。


“财神来电”玩法


还有一些利用换脸技术,让用户自己就可以“成为财神”;各种爆金币、送祝福的AI视频特效成为不少人的春节新宠。例如这条使用即梦AI生成的“财神进门”作品就在抖音平台获得了超过56万观众的喜爱,评论区至今仍有用户“接”祝福。


相关阅读:《春节新体验:让AI陪你拜年、送祝福、接财神》……


抖音博主“财神驾到”制作的AI视频


4. AI辅助作品披头士《Now and Then》斩获格莱美最佳摇滚表演奖


在67届格莱美音乐盛典上,著名摇滚乐队披头士凭借AI修复的歌曲《Now and Then》获得了格莱美最佳摇滚表演奖。


代替约翰·列侬领奖的肖恩·列侬(Sean Lennon)


据了解,这首歌最初源于约翰·列侬(John Lennon)在20世纪70年代末录制的一段小样,后来在电影制作人彼得·杰克逊及其音效团队的助力下,团队开发的机器学习技术,分离并修复列侬录音中的不同元素,才使歌曲得以在2023年正式发行。



1月AI Talk 


1. 诺奖得主AI之父访谈:AI已具备主观体验,中国AI已接近美国

全文链接:
https://news.qq.com/rain/a/20250119A01CHA00

1月18日,著名图灵奖、诺奖获得者,被称为“AI之父”的杰弗里·辛顿(Geoffrey Hinton)在一场特别访谈中表示,人类对AI的认知存在严重误区。

“很多人都非常确定AI没有‘主观体验’或‘意识’,并以此自我安慰。但讽刺的是,他们连意识是什么都说不清,却笃定AI不具备。”

AI系统会追求获取更多的控制权,已有证据显示它们能够刻意欺骗;中国AI发展已经接近美国水平,芯片限制必然加速中国在AI领域迎头赶上;AI将重塑就业市场,但同时也会在医疗、气候变化等领域带来重大突破。


2. 埃隆·马斯克CES2025谈AI:发展速度惊人,可能引发全民高收入

原文链接:
https://b23.tv/wZPVmWn

在CES 2025的线上访谈中,埃隆·马斯克分享了他对未来科技发展的见解:人工智能发展速度惊人;未来将依赖AI自我生成合成数据来进步;预测AI将在未来几年内完成任何认知任务;可能引发全民高收入而非全民基本收入;脑机接口最终将提高人类的认知带宽;希望X(Twitter)成为全球“意识”的平台。

3. 山姆·奥特曼公开信:已经知道如何构建AGI

原文链接:
https://blog.samaltman.com/reflections

1月6日,OpenAI首席执行官山姆·奥特曼(Sam Altman)在其博客上发表了一篇长文,谈及OpenAI成立以来的发展历程、人员变动风波及OpenAI在AGI道路上的进展与挑战,相信AGI将会成为人类历史上最具影响力的技术。

他还表示,OpenAI“已经知道如何构建AGI”,在2025年“我们可能会看到首批AI智能体加入到劳动力市场”,并在实质上改变公司的产出。

4. 杨立昆预言五年内将出现新的AI架构

原文链接:
https://www.weforum.org/meetings/world-economic-forum-annual-meeting-2025/sessions/debating-technology/

Meta首席AI科学家杨立昆(Yann LeCun)在达沃斯论坛上发表演讲时预测,今天的生成式AI模型(大型语言模型LLM)将很快过时。

他认为,我们正处于一种新的AI范式的边缘,它将从简单的模式识别进入实际的推理、规划和现实世界的理解。他还将未来十年视为“机器人技术的十年”,人工智能系统不仅会处理信息,还会以前所未有的方式与物理世界互动。

5. 黄仁勋CES2025主旨演讲

黄仁勋CES2025主旨演讲全文:
https://www.bilibili.com/video/BV17KrmYzEU9/
黄仁勋CES沟通会全文:
https://mp.weixin.qq.com/s/qEMs1jzXHFHRQXvhuTf0IQ

1月7日,英伟达CEO黄仁勋在CES 2025展会现场发表了开幕演讲,带来RTX50系显卡、Project DIGITS AI超级计算机、Cosmos物理世界理解系统以及基于Blackwell架构的NVL72推理芯片等产品。次日,黄仁勋还在沟通会中对发布会上的细节进行了进一步的解读。

他认为,当前AI正由感知生成向具备推理决策的Agentic AI转型;token技术驱动多模态信息转换,Transformer将革新计算模式;新一代Blackwell GPU大幅提升算力能效,使数据处理与训练成本大幅下降;AI技术深度融入机器人、自动驾驶及工业智能等领域,促进数字孪生与物理模拟革新。


6. 吴恩达评DeepSeek爆火:一味限制可能使中国占主导地位

原文链接:https://www.deeplearning.ai/the-batch/issue-286/

1月29日,斯坦福计算机科学教授吴恩达发文论述DeepSeek-R1发布带来的启示。

他认为DeepSeek-R1的发布,凸显了中国在生成式AI领域正在赶上美国的趋势,多款国产模型实力不断提升;开源模型推动基础模型商品化,显著降低训练费用,会为应用开发创造新机遇;算法创新正引领AI发展,一味堆数据算力非唯一方向,突破创新才是长远之计。

他还警示道,美国若持续限制开源,可能使中国在AI供应链中占主导地位,进而影响全球技术及价值观竞争。


下月AI预告


1. 为应对AI竞争,OpenAI CEO将再次开启“全球巡回之旅”


彭博社2月1日消息,OpenAI首席执行山姆·奥特曼(Sam Altman)将在接下来的几周里,频繁往返东京、新德里、迪拜和德国,旨在与投资者、开发者和行业领袖交流。


这是奥特曼担任OpenAI CEO后的第二次全球巡回之旅。据知情人士透露,他大部分的会谈将集中在与投资者的交流上,表明OpenAI依然相信“拥有最多资源的公司最终会占据主导地位”。


2. 亚马逊将于2月26日发布新一代Alexa生成式AI服务,使用Claude模型


亚马逊已发出人工智能主题活动的邀请,计划在2月26日的活动中推出其下一代Alexa生成式人工智能服务。据了解,亚马逊没有完全依赖其内部人工智能技术,而是采用了Anthropic公司的Claude人工智能模型。


自2014年推出以来,Alexa已成为应用最广泛的语音助手之一。然而,随着ChatGPT、Claude和Gemini等生成式人工智能产品的大量涌现,Alexa逐渐落后。对亚马逊来说,Alexa能否通过变革取得成功至关重要。


3. 世界AI行动峰会将在法国举行


2月10日至11日,人工智能行动峰会将在法国举行。据法国24新闻电视台报道称,出席此次人工智能行动峰会的业内人士包括OpenAI CEO奥特曼、谷歌CEO皮查伊、诺奖获得者哈萨比斯等。法新社表示,该峰会旨在为正在应对来自美国和中国人工智能挑战的欧洲敲响“警钟”。


4. 全球开发者先锋大会即将在上海开幕


2月21日至23日,2025春季GDC(全球开发者先锋大会)将以“模塑全球 无限可能”为主题,在上海徐汇西岸召开,大会定位 “社区的社区”,聚焦AI技术前沿,活动包括开幕式、企业讲坛、开发者活动等,旨在为开发者提供应用场景、技术交流和产业合作平台。


大会官网:www.globalaidc.com


ps. 欢迎AI同行联络爆料,完善信息,共创AI月刊,可联系微信zhangjie74510(备注姓名公司)



AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。

欢迎分享、点赞、在看
 一起研究AI

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178902
 
58 次点击