大模型与图机器学习协同的用户行为风控

导读本文将分享中国科学院计算技术研究所在图机器学习领域的最新进展，即使用大模型结合图学习应用于用户行为风控。

今天的介绍会围绕下面四点展开：

1. 背景介绍

2. LOGIN 方法介绍

3. 实验效果

4. 总结与展望

分享嘉宾｜敖翔博士中国科学院计算技术研究所副研究员

编辑整理｜方星泰

内容校对｜李瑶

出品社区｜DataFun

背景介绍

1. 图机器学习技术在风控领域具有天然优势

当前图机器学习仍是风控领域最先进的框架，其应用前景备受关注。

传统机器学习方法通常采用特征工程的思路，即对于每一个账户构造大量特征，进而训练机器学习模型。下游任务是一个判别问题，例如判断好人坏人、额度分层等。

引入图机器学习后，可以将原始用户的交互行为数据和大量日志数据构造成一张图。在这张图中，对所有数据基本上没有做有损压缩，虽然某些边可能无用或是噪声（如欺诈者的伪装行为），但图完整保留了所有信息。我们在这种数据结构上设计图学习模型，基于图神经网络调整结构和损失函数等，力争发现异常节点，比如欺诈者和疑似洗钱账户等。

图机器学习框架相比传统机器学习有三个天然的优势：

多账户关联分析：传统方法基于单个用户进行分析，但特征中可能包含一些群体或他人的信息，在图的框架下，多账户之间的关联分析更为自然。图结构提供丰富的上下文信息，通过高阶算法甚至可以探索较远的关系。

复杂交互数据处理能力：图机器学习能直接处理各种关系型数据，捕捉其中复杂的交互模式。

特征自动学习：当然所有深度网络都有这方面的优势，可以自动学习节点表征，无需人工特征工程。

2. 图机器学习风控面临的技术挑战

在风控流程中，将所有数据表示为图并直接使用 GNN 模型并不总是有效。风控场景中存在一些特殊挑战：

类别不平衡问题。黑样本虽少但关键，需要通过采样策略、损失函数或模型结构的改造来进行不平衡学习，对基础 GNN 框架进行优化。

攻击频发问题。欺诈者与反诈系统之间的对抗要求算法具有鲁棒性，能够识别伪装。可以通过数据增强模拟攻击手段、改进模型结构或对抗训练来应对。

分布漂移问题。新型欺诈手段不断演化，导致出现训练集中未见过的欺诈行为。在图学习框架下进行分布外泛化至关重要。

在特定应用场景的驱动下，可以形式化出许多新问题，并通过技术路线进行针对性优化。正是因为如此，自从大约 2017 年以来，随着 GCN 等图神经网络的广泛应用，大量关于图学习的文章不断在顶级会议上发表。这些文章背后往往经历了大量的试验与优化，才最终找到有效的解决方案。

3. 能否化繁为简，简化 GNN 改进流程

改进图神经网络模型通常针对特定挑战进行优化，过程往往缓慢，但实际应用中可能面对多种挑战的混合情况。因此，我们需要探索方法来增强 GNN 的泛化能力并提高改进效率，以更好地适应复杂的实际场景。

我们的目标是避免低效人工设计，利用先进的工具，即机器智能，提升那些前人已经设计出来的朴素 GNN 的性能。

4. 考虑目前最先进的 AI 工具：大模型

目前最先进的工具就是大模型，其优势无需赘述。大模型已经在多个领域涌现出了智能，不仅限于生成内容，其分析内容的能力，以及意图理解和简单的逻辑推理能力也达到了新的高度。因此，我们希望能够利用大模型帮助我们提升传统 GNN 在反欺诈场景的性能。

5. 融合“机器智能”，提升朴素图神经网络性能

所以我们的研究思路是，将各种大模型所蕴含的知识及其推理能力融入到朴素 GNN 中，使它能够比肩甚至是超越那些经过针对性设计的 GNN。

6. 大模型增强的图机器学习范式

我们进行了已有的大模型与图结合的研究调研，发现大致有两种范式：

LLMs-as-Predictors（大模型作为预测器）：这种方法将大模型作为预测器，即将图结构转换成一些文字描述（prompt），然后输入到大模型中进行节点分类、链接预测等任务。然而，这种做法导致我们无法利用已有的基于 GNN 的用户行为风控算法，直接使用大模型进行预测效果欠佳。

LLMs-as-Enhancers（大模型作为增强器）：这种方法将大模型用作增强器，对原始图结构进行增强，或添加新的属性以及整合额外数据，使得图数据变得更为丰富，再输入到 GNN 中进行训练，结果可能会更好。但这种范式下大模型仅在预处理阶段被使用一次，对大模型智能利用不够充分。

我们提出了一个名为 LLMs-as-Consultants（大模型作为顾问）的新框架：

在这个流程中，我们首先使用传统的图神经网络对图数据进行训练。训练过程中会发现一些难节点，例如在风控或反欺诈场景中的黑样本或欺诈样本。对于这些难节点，我们将其局部结构转换成 prompt，并输入大模型来预测。我们设计了一些策略，将大模型的预测信息反馈回 GNN，以优化其训练，该过程可以循环迭代，最终我们使用经过大模型增强的 GNN 网络进行测试。这种框架旨在利用大模型作为顾问，提升 GNN 的训练效果和应对复杂样本的能力。

LOGIN 方法介绍

1. LOGIN：基于大模型咨询的图神经网络训练流程总览

为了实现上述新范式，我们提出了一个名为 LOGIN 的方法。登录这个名字比较形象，即当 GNN 需要咨询时登录大模型，获取反馈并指导GNN 的训练。

整个方法分为四大部分：

第一部分是不确定点选择，即选出难节点。
第二部分是自动提示工程，利用难节点的局部拓扑结构和文本信息设计 prompt。
第三部分是大模型咨询，大模型给出对难节点的预测结果和解释。
第四部分是大模型回复利用，根据大模型预测结果的正确性设计了不同的咨询结果利用机制，以注入后续 GNN 的迭代训练。

2. 节点选择：图神经网络预测不确定度衡量

第一步，如何选出不确定的节点。与我们之前的一个工作类似，利用不同 dropout 采样下的 GNN 同时对图进行预测，分别得到每个节点的分类概率。对于预测概率方差较大的节点，即不同 GNN 对其预测结果不一致性高的节点，我们将其视为不确定的节点，才进一步咨询大模型。

3. 压缩节点语义+结构信息的提示工程

第二步的工作是构建提示工程。通过文本模板将目标节点局部邻域的情况表示成文本，作为大模型的输入。节点文本信息天然是自然语言，而图结构转化为文字描述有挑战，我们将其简化为针对目标节点列出其一、二阶邻居的信息，包括真值标签和 GNN 预测的标签。我们的工作主要考虑二阶邻居，但也可以考虑更高阶的信息，比如借鉴 KG-to-Code 将知识图谱转化为预定义的代码语言，大模型也能理解并展示良好效果。并且，在提示中明确输出格式，使大模型可以根据需求输出目标节点的分类结果和解释。

4. 处理大模型反馈的机制

接下来的步骤是利用大模型的反馈来改善 GNN 模型，分为两种情况：

（1）当大模型预测正确时，将其提供的解释作为节点属性的增强，直接整合到特征中。

（2）当大模型预测错误时，需要进行结构去噪处理。当大模型预测错误时，不再利用其不可信的解释。而考虑到风控场景下欺诈者与系统的对抗攻击十分常见，例如，节点可能故意与正常节点进行交易，这种攻击行为可能是导致 GNN 和大模型都无法准确预测的原因。因此，通过结构学习去除这些攻击行为，最终得到一个干净、可靠的图结构，再让 GNN 进行重新训练，从而提高模型的效果。

简言之，当大模型预测正确时，做属性增强；当大模型预测错误时，做结构去噪。利用大模型的反馈让 GNN 再次训练，如此进行后续的迭代，提升 GNN 模型在复杂场景下的表现。

5. 训练&测试设定：直推式(transductive)

本工作采取 transductive 的设定，即训练和测试节点都可见于同一个图中。在训练过程中，通过多轮迭代逐步修改输入图，删除连边、增强节点属性，并持续训练获得更优质的 GNN。在测试阶段，直接使用训练好的 GNN 对测试节点进行预测，该 GNN 的消息传递发生于更可靠的连边，传递语义更丰富准确的信息，因而获得性能提升。

总结来说，在测试阶段无需大模型的参与，它仅在训练阶段作为顾问增强了 GNN，而测试阶段直接使用经过增强的 GNN 进行预测。

实验效果

1. 数据集选取

为了测试这个框架的有效性，我们使用同配图和异配图 benchmark 数据集进行实验。

除了选择图机器学习广泛使用的同配图数据集，由于异配图的构图特点更加接近风控场景，我们特别关注在异配图上的效果验证。

2. 主实验效果

主表上半部分是朴素 GNN，我们用 LOGIN 增强这些教科书式的、已被广泛使用的 GNN，下半部分是特殊设计的先进 GNN 算法。我们希望增强后的朴素 GNN 能接近甚至超越下半部分这些优秀的方法。

从实验结果来看，预期基本达成，在许多数据集上都接近甚至超越了下半部分 SOTA 方法的效果，例如在同配图 PubMed 和异配图 Texas 数据集上，我们的最高得分超过了已有方法，其他数据集上也达到了相近水平。需要注意的是，为了节省预算，我们仅咨询大模型部分不确定节点，却取得了显著的效果提升，并且补充实验表明，增加咨询的比率可以进一步提高效果，展示了 LOGIN 在提升 GNN 性能方面的潜力。

3. 消融实验

消融实验主要验证了两个组件的重要性。第一个组件是当大模型预测正确时进行特征增强（标记为 F），第二个组件是当大模型预测错误时进行结构去噪（标记为 S）。

消除这两个组件后，实验结果显示分数都显著下降，证明它们对整体框架的有效性都很重要。而在异配图中，即欺诈场景类似构图下，移除结构去噪（S）的影响更为明显，分数下降较多，表明在异配图中清除由疑似欺诈者发起的攻击性连边是非常有效的。而在同配图中，这种现象则不那么明显。

因此，当大模型预测错误时，我们也有手段（结构去噪）来提升 GNN 的表现，这保证了整体框架的稳健性和有效性。

4. 不同大模型能力对比

我们测试了使用更先进的大模型是否会带来更好的效果。结果显示，使用能力更强的大模型可以明显提升最终分数。能力更强的大模型能够处理更多复杂情况，其咨询意见可能更准确，从而带动了整体框架的性能提升。

5. 大模型增强的图机器学习范式对比

与先前 LLMs-as-Predictors 和 LLMs-as-Enhancers 两种范式对比，可以看到 LOGIN 方法能够稳定超越另外两种范式。特别值得一提的是，LLMs-as-Enhancers 用了 llama2-13b-chat 这样一个更大的模型，而我们使用的 vicuna-v1.5-7b 参数量更小，但达到了相近甚至更优的效果。

6. 案例分析：LLM 正确分类

最后介绍两个案例。在一个案例中，目标节点的真实类别是"神经网络"，但被 GNN 错误地分类为"概率方法"，且预测方差较大，因此被选中向大模型进行咨询。大模型给出了正确的"Neural Networks"分类，并提供了合理的解释。通过这个解释进行特征增强后，GNN 在下一轮预测中正确地分类了节点，预测方差也减小，验证了特征增强机制的正向效果。

7. 案例分析：LLM 错误分类

在另一个数据集上的案例中，我们发现即使大模型预测错误，LOGIN 仍然有效。在这个网页链接数据集中，目标节点真实的类别是课程主页。然而，该网页的一阶邻居都是学生主页，可能导致了 GNN 的错误预测。咨询大模型也没有得到正确结果，因此其解释也无效，于是采用拓扑去噪的算法对目标节点邻域删除部分连边。随后，GNN 再次训练并最终预测正确。

总结与展望

为了提升 GNN 在用户行为风控上的效果，同时提高 GNN 设计改进的效率，甚至实现自动化的修改，我们提出了大模型作为顾问(LLMs-as-Consultants)的范式。基于这个范式，我们提出了名为 LOGIN 的方法，并在同配图和异配图 benchmark 上实验验证其有效性。

未来，我们希望将这套方法应用于用户交互行为，实现人机融合支持金融风控的实际应用。然而，在处理真实数据时会面临挑战，例如蚂蚁和微信用户超过十亿，交互行为非常庞大。即使是分析一个具体的个人，其周围的邻居数量可能非常庞大，如何在有限的 token 数量内清晰描述其邻域结构并让大模型理解，仍然是一个挑战。

此外，在实际应用中，我们还需考虑如何控制成本。首先是时间成本问题，大模型的交互速度较慢，几秒钟给出一个回复在工业界难以接受。此外，经济成本也是限制框架在工业界落地的因素之一。尽管如此，我们仍然希望这一方法能为用户行为风控带来新的思路和启发。

以上就是本次分享的内容，谢谢大家。

分享嘉宾

INTRODUCTION

敖翔博士

中国科学院计算技术研究所

副研究员

敖翔博士，中国科学院计算技术研究所副研究员，博士生导师。研究方向为智能金融、数据挖掘与自然语言处理。先后主持国家自然科学基金项目 3 项，CCF-腾讯犀牛鸟科研基金（获优秀奖）、腾讯广告犀牛鸟专项基金、阿里巴巴 AIR 计划（获优秀学术合作项目）、蚂蚁金服金融安全专项基金等10余项科研项目，在 IEEE TKDE、KDD、WWW、ICDE、SIGIR、ACL、AAAI、IJCAI 等国际权威期刊和会议上发表论文80余篇，其中 CCF A 类 40 余篇。入选北京市科技新星、中国科学院青促会、微软亚洲研究院“铸星计划”。担任 SIGKDD、WWW、ACL、AAAI、IJCAI 等学术会议的（高级）程序委员。

往期推荐

智能金融稳步前行：构建负责任的可信大模型

语言模型窗口外推技术综述

小红书搜索：生成式检索的探索与实践

文心大模型赋能商业智能助手的探索与实践

躬迎数据湖天命人，数据湖技术成熟度曲线全解析

现代数据架构的探索与实践：知语数据编织系统

OpenAI 创始人 Altman ：超级人工智能实现仅剩几千天

货拉拉大数据元数据管理体系演进和实践

Fileset：小米 AI 数据管理平台落地

滴滴指标标准化实践

点个在看你最好看

SPRING HAS ARRIVED