特征工程、模型结构、AIGC——大模型在推荐系统中的3大落地方向
今天我们谈谈一个搜广推行业这两年怎么都绕不开的一个话题,大模型在推荐系统中的应用。两年前,我们可以说大模型是推荐系统的未来,但如今,大模型对推荐系统的改造已经如火如荼的发生着,很多头部公司都拿到了显著的收益。这篇文章不谈未来,不谈学术,就谈业界已经发生的切切实实拿到收益的大模型应用方向。
谈具体的应用之前,我们先从宏观上理解一下大模型的出现对推荐系统到底意味着什么。
就像在改造推荐模型时,我们一定要清楚信息增量在哪、模型结构的优化点在哪一样,我们并不是因为大模型这个技术比较fancy,所以才把大模型施加到推荐系统之上,而是因为大模型确确实实能够为推荐系统带来知识和模型的全新变化,让推荐效果受益,才应用大模型技术的。
因此我想先从宏观上解释一下大模型对推荐系统的实际意义到底是什么。我的理解中,大模型宏观上在三个层级上改变了这个世界,也同样是在这三个层次上改变了推荐系统。
大语言模型的出现,特别是多模态大模型的出现,毫无疑问改变了AI学习理解知识的方式。传统的深度学习推荐模型对知识的学习其实是封闭式的,它依赖人工的内容型特征的筛选和构造来学习知识,同时它的知识范围一般限于公司的内部推荐数据。而大模型的知识学习是开放式的,一个大模型就可以融会贯通开放世界中能获取到的几乎所有知识,这是之前没有技术能够达到的。
这就带来了推荐系统在“知识输入”上的革命。大模型融合的开放世界知识将带给推荐系统丰富的增量信息,多模态大模型对于图片、视频的理解能力带来了更为丰富的多模态知识输入。这对于推荐系统的特征工程、冷启动、内容理解的意义重大。
当今的大模型结构一般是基于transformer结构的生成式模型结构。大模型的结构和传统的深度学习推荐模型区别甚大。本质上,推荐模型是一个分类模型或排序模型,而大模型是生成式模型。在深度学习推荐模型2021年之后遇到效果提升的瓶颈之时,大模型的生成式模型结构是不是推荐模型的新答案,新范式?在大模型改造了智能体的结构之时,它能否也颠覆推荐模型,带来新的增长极,这是所有人期望去探索的。
OpenAI在发布Sora之时,喊出了“Sora是这个世界的模拟器”的口号。大模型最大的野心其实是完全创造一个新的虚拟世界。回到推荐系统领域,其实推荐系统一直以来的使命是帮助人发掘感兴趣的信息和内容。但大模型极强的内容生成能力,让“个性化内容生成”成为可能。也就是说,大模型有可能越过“推荐”这个环节,直接为用户创造个性化内容,这才是大模型可能带给推荐系统最大的革命。
从宏观上厘清了大模型革命的三个层次,我们才能脚踏实地的探索那些可能落地的应用。下面列出一些经过我筛选的,并且也有一些落地经验的大模型推荐系统应用方向。
下面的表格对比了大模型在知识层面上相比传统推荐系统的不同,可以发现,大模型的知识与推荐系统的知识是“完美互补”的关系。 大模型的知识是开放的、多模态的 ,它从开放世界学习到的外部知识将给推荐系统带来大量的“新鲜血液”;但与此同时, 大模型缺乏推荐系统内部的用户行为信息 ,这也就意味着大模型无法完全替代推荐系统的知识体系。最合理的方式是结合二者的优势,将大模型的世界知识输入到推荐系统中去,提升推荐系统的效果上限。
系统内产生的用户行为信息,系统内的用户、商品、场景信息
代表用户行为的ID类信息,以及结构化的用户、商品描述性信息、统计类信息
开放、来源广、总量大。但接触不到推荐系统内的私域信息,缺失用户行为信息
封闭、结构化、经过筛选。但难以学习到开放世界的外部知识
从用户行为、结构化信息中学习到的协同信号、共现频率
对比曾经红极一时的基于知识图谱的RippleNet,KGAT等GNN方案,大模型其实是在一张包含了世界知识的知识图谱上训练的,而其生成的对于每个知识节点的Embedding显然具备更丰富的相似性关系。所以从知识输入的角度来说,大模型对知识图谱GNN方案有着降维打击似的优势。而相比个性化的构造一些内容型/知识型特征输入推荐模型这种小打小闹的方案,大模型也显然具有更强的通用性,所以我们几乎可以得出结论:
大模型相比传统的知识图谱、人工构造内容型特征等知识输入方式,无论是在知识总量,还是知识Embedding的质量上,都具备明显的优势。今后在考虑构造知识型/内容型特征时,大模型几乎可以说是最优的解决方案。
明确了方案的优势,那么从做法上来说,有哪些方式把大模型的知识喂给推荐系统呢?主要有两种。
第一种是LLM生成Embedding后输入推荐系统。 对于LLaMA这样的开源大模型来说,我们可以知道模型所有的参数,也可以对模型进行改造,所以在预训练完成之后,大模型可以被当作一个多模态特征的编码器,把多模态特征转换成同一隐空间内的Embedding,这样就可以与深度学习推荐系统无缝衔接。
第二种是LLM生成文字Token后输入推荐系统。 对于ChatGPT这样的闭源大模型来说,我们无法让模型直接生成Embedding,而只能通过它的API生成Prompt对应的token序列。这时token序列就可以成为大模型向推荐系统传播知识的媒介。当然在推荐模型中token还是会被转换成embedding来参与特征交叉。
本质上,多模态大模型这里被当做了一个功能强大的encoder,过去我们想构造一个多模态推荐系统,还需要为相应的模态分别构建encoder,现在一个预训练的多模态大模型,或者是成熟大模型公司的api就解决所有问题。具体的方案有很多,比如下图的MoRec使用Switch游戏的介绍图片和介绍文字构建多模态特征,进行游戏推荐。
比如在MKGAT(Multi-modal Knowledge Graphs for Recommender Systems)方案中,把图片,文本描述信息,结构化信息等多模态的Embedding通过FC layers整合起来,形成更全面的关于物品内容的Embedding表达。MKGAT其实是一个比较老的方案,当时的图片类信息还是采用resnet作为一个编码器,现在通用的做法就是替换成大模型把图片转换成Embedding或者图片描述型tag后输入推荐模型。
MKGAT方案中的多模态Embedding融合方案
再比如快手的多模态推荐模型方案EM3(End-to-end training of Multimodal Model and ranking Model)。可以看到其最大的特点是用多模态大模型抽取出用户行为历史物品和目标商品的内容特征,Embedding化后供后续模型做特征交叉。值得注意的是,ID型特征还保留在模型中,因为ID特征和多模态内容型特征是互补的关系,二者包含的信息是不可相互替代的。
总的来说,不管这些方案的结构是怎样的,训练方式是预训练还是E2E训练,我们只要记住一件事情就可以理解他们的核心思路,那就是他们无一例外都在利用多模态大模型的能力把多模态的信息转换成模型可以学习吸收的Embedding或者文字token。也无论相关的学术词汇多复杂,比如知识增强,大模型知识图谱,大模型特征工程等等,都可以归为这一类,那就是利用大模型改变推荐系统学习知识的方式。
大模型改造推荐系统的第二个层级是对推荐系统本身推荐方式的改造,或者更具代表性的是对推荐模型本身的改造。这一大趋势携带着所有推荐系统工程师们的一个深切的希望—— 深度学习的红利逐渐枯竭之后,推荐模型新的发展范式到底在哪里?
对于这一新范式的追寻,其实也经历了三个小的发展阶段。第一个阶段是探索期,甚至带着点为了在推荐系统中应用大模型而应用大模型的追热点时期。 这一阶段的典型产物是一堆有玩具性质的prompt推荐系统。 比如亚马逊的研究人员给出的一个解决方案,PALR(Personalization Aware LLMs for Recommendation,个性化感知大语言推荐系统)。它的主要推荐流程是把用户的历史行为,和候选物品的相关信息统统通过prompt的方式输入给大模型,让大模型自己来进行个性化推荐
它的一般流程是,大模型先利用用户的历史行为推断出用户的基本兴趣画像。如下:
然后,再把用户的画像、历史行为文字描述、候选物品信息输入大模型,给出最终的推荐列表,如下:
这一过程虽然能够得出一个靠谱的推荐结果,但如果你是一个有些行业经验的从业者,一定能看出,这一方案在扩展性,模型的工程指标和信息利用程度上,都不可能好于现在的深度学习推荐模型。所以我称之为探索期的玩具推荐模型。即使有后续的其他类似推荐系统的探索,比如华为的UniLLMRec等,仍是一类较难工业化的推荐系统方案。
于是, 大模型推荐系统的探索来到了第二阶段,到底如何在工业级推荐系统中让大模型产生业务指标的真正提升。 Meta的生成式推荐模型GR(Generative Recommendation)方案率先给我们曙光。GR的线上核心业务指标大幅提升了12.4%,这毫无疑问给整个推荐模型领域注入了一个强心针。
技术方案上,GR也可谓是完全脱胎于大模型的结构,直接推翻了传统推荐模型CTR预估式的point wise模型结构,而是采用生成式语言模型的结构,从预测点击率的问题,变成预测用户下一个行为是什么这种生成式推荐的问题。针对这种新的问题提出方式,模型的结构也完全遵循LLM的序列模型结构,输入的特征也全部通用化为序列特征的形式。毫无疑问,这是革命性的。
GR的工程优化方式也是非常巧妙,比如模型一次inference即可生成对所有候选物品的预估结果,模型的transformer结构进行了高效的简化等等,可以看出Meta的工程师们是在竭尽所有智慧和技巧推GR上线。
Meta GR的珠玉在前,利用LLM结构优化推荐系统的各个模块似乎一下子成为了新的流行趋势,并有不少公司拿到了切实的业务效果。 召回层、粗排层、精排层的模型方案都有了大模型的影子。这第三阶段大有百花齐放的趋势。 这里举一个比较有代表性的例子是快手的基于Transformer的召回模型KuaiFormer。
和Meta GR一样,KuaiFormer也把过去“视推荐为分类问题”的做法改成了“把推荐视为预测用户的next token”的问题,于是就可以利用Transfomer的结构预测用户的next interest embedding,再把这些embedding当作ANN召回的索引Embedding,就实现了LLM思想对召回层的改造。可以说,这类方案的核心是用训练LLM的思路解决推荐问题,用Transformer为基础的模型结构。
时至今日(2025年4月),大模型在推荐系统的应用文章越来越多,但只要我们能够掌握住该类思路的核心——用生成式模型的思路作为解决推荐问题的新范式,就可以把这类思路应用在推荐系统各类模型的改造之上。
虽然上面两个方向的大模型应用已经带来了诸多收益,但我要在这里说的是,如果你把LLM和GenAI改造推荐系统的潜力局限在现有的推荐系统框架内部,那我想你是太小看这次革命的影响力了。我强烈推荐的是跳出自己的技术小圈子,从大的视角再思考一下从哪个角度发力,才能让大模型最大程度地推动推荐系统的效果增长。
相比推荐系统技术上的改造, 这波AI革命对推荐领域最大的影响,我想一定是"推荐内容的个性化生成"。 如果说OpenAI Sora的口号“成为世界的模拟器”还有点好高骛远的话,那AIGC生成推荐内容的很多想法已经产品化,越来越深刻地影响着现在的推荐方式。
宏观上来说,新的推荐内容生成方式是把AI生成器(图来自生成式推荐系统的框架GeneRec),或者叫AI创作者纳入到推荐系统中来。
从图中可以看到,AI生成器参与创作的方式有两种:
1.辅助人类创作者创作,比如根据人类的Prompt生成文字、图片或视频。
2.直接根据用户反馈生成个性化的推荐内容。
AI创作者创作的内容出路就一个,那就是与人类创作者创作的内容一样流入候选物品集,一同参与推荐过程。
无论是AI辅助内容创作和AI个性化内容生成,它的基础都离不开扩散模型(diffusion model)。无论是大名鼎鼎的Stable Diffusion,还是轰动一时的Sora,其底层的prompt Embedding到图片的关键步骤,都是基于扩散模型的。
Sora的基本框架(来自张俊林老师的逆向工程解读)
对AIGC相关模型细节感兴趣的读者,可以参考下面的两篇经典解读文章
The Illustrated Stable Diffusion
张俊林:技术神秘化的去魅:Sora关键技术逆向工程图解
在AIGC的基础模型之上,其实各家推荐内容生成的要点主要在产品创新,比如广告创意的自动生成,利用产品图片和有限的人类输入的prompt,可以生成多样化的产品展示图和海报,然后交由广告推荐系统去自动选择。
再比如数字人技术,可以把文字输入自动转换成口播视频,产品介绍,甚至新闻播报节目。这是内容创作生产力的大幅解放。
再比如,目前已经有一些模版化,规则化的AI生成视频,在短视频平台上取得了非常不错的点击量。我想下面一些AI生成的视频你一定刷到过。
这里我要强调的是,目前所有的AIGC产品,还都是需要人类介入的,人类要提供最起码的指令型prompt,比如生成内容的核心要素是什么,生成广告创意的大致样式是怎样的。这距离完美的个性化AI生成视频还有一定的距离。我想AIGC最大的想象空间是未来的推荐系统将根据用户反馈完全自主的生成用户想看的内容,不再依赖人类的参与,达到完全自主的用户-AI-推荐系统闭环。
目前有一些探索性的研究,比如个性化的电影海报生成(PMG: Personalized Multimodal Generation with Large Language Models)。它的主要逻辑是把用户的行为历史融合到电影海报的生成过程中,生成针对用户喜好的个性化海报。这类方案从商业逻辑上还不完全成立,但大家应该能从这个方案中了解到AI个性化内容生成的大致框架。
发散一点来说,AI生成越来越多推荐内容之时,另一个关于AI伦理的更宏大的命题又应运而生,如果真的有那么一天,AI生成了所有人类乐意看的推荐内容,人类愿意活在完全由AI推荐系统创造的快乐世界里吗?人类终究还是需要与其他人类的灵感碰撞才是真正快乐的吧。推荐系统的信息茧房,甚至哲学意义上的“缸中之脑”问题,终究要在AI进一步发展滞后寻求一个答案。
深度学习推荐系统2.0时代——对推荐系统下一步突破的探索
最后谈一谈作为推荐、广告、搜索领域的从业者,如何看待推荐系统下一步的破局点以及对职业发展的一点建议。
首先我旗帜鲜明的认为,搜广推行业没有寒冬一说,它只是一直在进化,一直在寻求进一步的增长点。就像2014-2015年的时候,深度学习的革命全面到来之前,大家也是都在谈广告效果停滞,效果广告行业瓶颈。事实是,那是一个LR模型就能一统江湖的时代,大家口中的效果瓶颈在后来人看来是完全不存在的,在那波深度学习革命中被淘汰的,是一批靠着规则推荐、靠着营销、甚至效果作弊红极一时的公司。
今天的大模型时代也一样。我从来不建议搜广推的从业者抛弃自己的技术、业务、行业优势去完全更换赛道。我建议的是突破自己固有的技术区域,去思考新的技术革命下如何把新的技术趋势结合到自己非常熟悉的领域。因为搜广推仍然是互联网的第一变现渠道,如果互联网不需要盈利了,搜广推才会彻底寒冬。
在深度学习推荐系统2.0时代,对于行业的突破点,我给出的建议是:算法、工程与大模型的联合创新与优化。 谁能通过三者的优化把大模型的收益拿到手里,落到实处,谁就能在下一步的竞争中领先。这里面,深度学习推荐系统的算法框架是基础,大模型的创新点和收益来源,算法和工程的联合优化是落地关键点,缺一不可。我也会在我的新书中跟大家详细探讨更多联合优化的案例。
备注: 昵称-学校/公司-方向/
会议(eg.ACL) ,进入技术/投稿群