Robust Random Cut Forest算法是亚马逊用于检测异常值的无监督算法。它也通过关联异常分数来工作。低的分数值表示数据点是“正常的”,高的值表示数据中存在异常。“低”和“高”的定义取决于应用,但是一般实践表明,超过平均值三个标准差的分数被认为是异常的。算法的细节可以在这篇文章中找到。 http://proceedings.mlr.press/v48/guha16.pdf 这个算法的最大优势是它可以处理非常高维的数据。它还可以处理实时数据流(内置AWS Kinesis Analytics)和离线数据。 我可以在如下的视频里更加详细的解释这个概念: https://youtu.be/yx1vf3uapX8该算法的论文给出了一些与孤立森林相比较的性能标准。论文结果表明,RCF比孤立森林更加准确和快速。 完整的案例代码可以在这里找到:amazon-sagemaker-examples/introduction_to_amazon_algorithms/random_cut_forest at master · aws/amazon-sagemaker-examples · GitHub
结论
我们生活在一个数据每分每秒都在剧增的世界里。数据如果使用不当便会随着时间贬值。于在线数据流或离线数据集中发现异常值,对于识别商业中的问题或主动构建解决方案以在问题发生之前发现潜在的问题,或者甚至在探索性数据分析(EDA)阶段为ML准备数据集都是至关重要的。我期待你能认为本文有用,在下面的评论区让我知道你的想法。 原文标题:5 Ways to Detect Outliers/Anomalies That Every Data Scientist Should Know (Python Code) 原文链接:https://towardsdatascience.com/5-ways-to-detect-outliers-that-every-data-scientist-should-know-python-code-70a54335a623 点「在看」的人都变好看了哦!