机器学习究竟有没有用 | FreeBuf甲方群话题讨论

随着网络攻击变得越来越多样化，网络安全人员越发需要更加复杂且具有预见性的规则或策略来迅速处理各类安全风险，而目前热门的机器学习，凭借强大的数据处理、检测识别及自动学习等能力，在网络安全领域也开始发挥作用，那实际效果究竟如何？是与人工优势互补，还是更进一步，开始取代人工，在系统中发挥关键作用？本期话题，我们将围绕目前机器学习在网络安全中的实际运用能力，就相关问题展开讨论。

机器学习本质上也是在解决相似性问题，比如流量识别、漏洞挖掘，安全态势感知等，那目前机器学习在这些领域做得如何，是否噱头大于实际能力？

A1：

单机器学习还不够吧，如果有AlphaSec可能就比较厉害了。我觉得这早晚是一个方向，把一些苦活儿交给机器去做。其实肉鸡本来也是一种节省人力的方式吧。

但是运维领域里的机器学习，大多数都是忽悠人的，如果安全的机器学习也是相同方式的话，那基本上也一样。比如趋势预测，我感觉是学不出来的，但是通过爬日志分析事件来追溯或者预警，我觉得可以。运维行当里什么机器学习预警磁盘损坏的，基本上跟江湖郎中一样吧。

A2：

误报和样本、采样的维度、算法都有关系，一般策略要上，重要的指标上误报率，如果误报率太高，不管是什么技术，这个策略上不如不上，不代表技术不好。

个人愚见，在处理事件的同时，多从不同维度的特征出发，采集不同维度的数据，增加样本给机器，提升成熟度。

A3：

机器学习安全肯定是需要的，不能因为误报就认为是噱头，时代在发展，科学在进步，反对机器学习安全的肯定是怕被取代。

A4：

我之前去微软参加一个会议，他们说没有机器学习前，Azure的SOC告警量每天达到上千万条，把机器学习应用到安全告警分析中后，每天只需人工介入处理1000以内。但他们对于AI安全的投入也是达到了上千万，所以AI安全是奢侈品，是不缺钱企业才玩得起。

A5：

以前在乙方一直搞这块研究，首先在单一领域，比如病毒静态识别、动态识别、反垃圾邮件、离职倾向判断、数据安全等，在机器学习领域都有广泛应用，因为都是利用以有的大样本做特征识别、筛选、训练机器学习模型。

在深度学习领域，WebShell检测、内容安全识别、图片OCR泄漏识别、录音识别以及WAF 的检测规则上，也都使用NLP、CNN技术比较多。另外在SOC、SOAR的告警检测识别等领域也有相关产品，比如AI SOAR。

风控这块先不讲，比如我们广泛在WebShell识别中早期使用决策树，后来上NLP，就跟WAF一样，其实误报率都高的离谱。不可否认AI机器学习、深度学习、知识图谱以及最近非常流行的GNN图识别在各行各业都开花结果，但AI在安全行业的落地，目前看来是无法起到颠覆性决定性作用的，这会让很多人对它期望过高而失望，目前只能作为现有安全技术产品的补充手段，而不是决定性手段，所使用的场景也非常有限。

A6：

也不能这样下结论，现在都用在检测上，换个视角，用在响应和处置上。

A7：

在响应和处置上，有的产品已经集成了，我说的AI SOAR就是。

A8：

其实AI给了我们一个思考的空间：
1、黑是什么？
2、白是什么？
3、模糊地带，我该怎么判断黑白？（分类）
4、我判断的原则要不要变？（反馈）

A9：

最终还是我们自身用不起来，异常行为检测感觉很适合机器学习吧？实际情况，样本中都是脏数据，或者说压根就不存在正样本。

A10：

机器学习本身就是聚类分析，调整阈值，漏报和误报反复横跳，不同企业现在需要不断调来调去，指望外部引来的模型和阈值完美适配自身现状有点异想天开。

A11：

机器学习现在在风控角度运用的比较多，比如业务安全的反欺诈，在网络安全领域，根据我的经历，UEBA这边会比较多。

但是机器学习，其实在网络安全中能帮不少的忙，SDLC、SAST、IAST等环节，都有很多机器学习的应用场景，只是都不深。在数据打标、敏感数据识别过程，也要针对企业内部数据特性，建立识别模型，往机器学习那边发展。

A12：

机器学习用在网络安全方面，感觉需要定制化、提炼的东西比较多，安全数据异构性比较强，不像运维里AIOPS那么好推广套用，所以个人理解，网络安全+机器学习需要安全团队自己首先做很多工作，甚至需要提炼或者自己加工一些半成品的指标，相对来说不是拿来就可以用的那种，运用的门槛高很多，所以感觉现在运用效果还不太明显。

A13：

机器学习+安全目前还是看具体业务需求吧，机器学习到深度学习或者再往深了走好多都是黑盒解释不清的。在安全需求比较高的业务还是不敢轻易试探。

Q：用机器学习来适当解放网络安全的人力成本目前是否可行？或者说购买具备机器学习的产品与一般用人成本相比，目前哪个更具性价比？

A1：

我觉得，现在的问题在于没有机器学习/AI和安全都非常擅长的人。如果有的话，这个领域应该是毁灭性和颠覆性的。

感觉这个东西可能在攻击方或者乙方大企业更有用途，甲方的话，因为安全工作繁杂，现阶段不太可能用这个来代替人力（特别是一个人的安全部），做这个东西造成的人力损失难以弥补带来的人力节省。

如果应用到攻击方，那么防守方自然就得卷起来。

A2:

搞了个小团队搞机器学习，3人，0产出，理论结合不上实际，拆开继续搞基线+合规检测了。

A3：

如果机器导致的大量误判增只会加人力资源成本。

A4：

觉得机器学习不太能释放人力，而且机器学习无论是前期的模型开发还是后续模型的维护都非常消耗人力，是个人力开销很大但产出不确定性非常大的工作，如果说释放人力，觉得SOAR以及超级自动化比较释放人力。

A5：

机器学习的建设本身就是一件比较消耗人力的事，在机器学习建设的比较好的情况下，是可以发现更多深层次的问题的，对于发现问题的效率和质量提升会比较大。

话题二：人脸识别要求中有不宜将人脸识别设为唯一验证手段。这个“不宜”怎么解读？

A1：

不宜就是就是需要提供多种验证手段，但是也可以作为唯一验证手段，没说禁止，还有应该联系上下文进行解读，可能在上面还会说禁止单一方式验证。
还有一些其他法规也会涉及到，我记得之前有个案例就是物业公司强制人脸开门，物业公司败诉了。

A2：

高度敏感单位有保密要求，可以用人脸识别，一般物业、考勤就不要滥用了。

A3：

最新的《网络数据安全管理条例（征求意见稿）》已经用的是“不得”这个表述了，而不再是建议性的“不宜”了。但特殊情况的口子还是要留着的。

第二十五条：数据处理者利用生物特征进行个人身份认证的，应当对必要性、安全性进行风险评估，不得将人脸、步态、指纹、虹膜、声纹等生物特征作为唯一的个人身份认证方式，以强制个人同意收集其个人生物特征信息。法律、行政法规另有规定的从其规定。

这个趋势是定的。目前最高法的司法解释，和消协的规定，已经对于小区物业和经营场所是明确不允许的。而其他场景，从立法到执法是有很大空间的。

——————————————————

本期精彩观点到此结束啦~此外，FreeBuf会定期开展不同的精彩话题讨论，想了解更多话题和观点，快来扫码免费申请加入FreeBuf甲方群吧！

加入即可获得FreeBuf月刊专辑，还有更多精彩内容尽在FreeBuf甲方会员专属社群，小助手周周送福利，社群周周有惊喜，还不赶快行动？

申请流程：扫码申请-后台审核（2-5个工作日）-邮件通知-加入会员俱乐部

如有疑问，也可扫码添加小助手微信哦！

FreeBuf甲方群成员（因篇幅限制仅展现部分行业成员）：

金融行业：贝宝金融安全负责人、成都农商银行信息安全负责人、晋商银行安全负责人、北京银行安全负责人、君龙人寿技术负责人、合合信息合规负责人、合生信息安全负责人、航天产业投资基金IT负责人、工银金融信息安全负责人、前海联合基金信息安全负责人、天弘基金安全负责人、阳光保险信息安全部负责人、南京证券安全负责人、宝马金融信息安全经理

运营商：中国联通网络安全主管、中国电信信息安全技术主管、上海电信网络安全主管、天津电信SOC主管、太平洋电信研发总监

互联网：云畅游戏信息安全总监、飞点网络技术总监、聚水潭科技信息安全总监、诺亚控股业务安全中心总监、哥伦比亚中国信息安全总监非夕科技信息安全总监、赫基国际信息安全部负责人、熵通科技信息安全负责人、建发集团信息安全经理

其他：大学长教育数据安全与合规总监、温州城市大学信息技术服务中心科长、作业帮安全负责人、同程艺龙安全总监、新奥集团安全总监、中译语通安全总监、集贤科技安全总监、德邦快递安全总监、盒子科技安全总监、猎豹移动安全总监、蚂蚁集团实验室负责人、结行科技数据安全负责人、苏宁网络安全经理、新浪网络安全经理、吉利汽车信息安全经理

精彩推荐