异常检测的一些资料整理

=Start=

缘由：

整理一下最近和之前收集到的和「异常检测」相关的资料，方便以后要用的时候参考。

正文：

参考解答：

什么是异常检测？

（因为在一个正常的环境中，异常对象是相对罕见的）所谓异常检测就是发现与大部分对象不同的对象，其实就是发现离群点。异常检测有时也称偏差检测。

为什么要做异常检测？

为了发现系统中的风险点，比如：

信息安全中：

WebShell检测
恶意提权检测
渗透攻击检测
恶意操作检测
僵尸主机检测
木马回连检测
恶意爬虫检测
恶意访问检测

业务安全中：

信用卡盗刷
骗保骗赔

业务运维中：

复杂业务指标（请求量、收入等）的异常波动检测

异常检测期望达到什么效果？

快速、准确的发现异常现象，以做出及时的应对，保证系统的整体稳定、安全。

常见异常检测方法整理

方法一：基于经验

基于分析人员自身的经验，使用特定的与日志相关的特征进行分析挖掘。比如特定的关键字等。

方法二：基于数据统计

比如常见的阈值、频率、同比、环比等。

方法三：基于外部数据关联

比如恶意手机号码库、恶意IP库、病毒木马库等。这个其实也可以归结到「基于经验」的分类中去。

方法四：基于算法

比如常见的以下几种：

基于模型的技术：许多异常检测技术首先建立一个数据模型，异常是那些同模型不能完美拟合的对象。例如，数据分布的模型可以通过估计概率分布的参数来创建。如果一个对象不服从该分布，则认为他是一个异常。

基于邻近度的技术：通常可以在对象之间定义邻近性度量，异常对象是那些远离大部分其他对象的对象。当数据能够以二维或者三维散布图呈现时，可以从视觉上检测出基于距离的离群点。

基于密度的技术：对象的密度估计可以相对直接计算，特别是当对象之间存在邻近性度量。低密度区域中的对象相对远离近邻，可能被看做为异常。

以上内容只是我对「异常检测」做的一点介绍、梳理和收集，根据我当前遇到的一些情况来看，有以下几点想法：

数据的质量最重要！
数据的质量最重要！
数据的质量最重要！
一定要对实际场景有所了解！
规则有时候比算法、模型更有效，算法、模型并不是万能的。
异常可能总是在变化，需要不断的调整策略和重新训练模型。

参考链接：

微信亿级用户异常检测框架的设计与实践#nice
基于主动学习的异常检测#nice
异常检测（anomaly detection）#超nice
2.7. Novelty and Outlier Detection
https://scikit-learn.org/stable/modules/outlier_detection.html
异常检测
http://blog.kamidox.com/gaussian-distribution.html
异常点/离群点检测算法——LOF
https://blog.csdn.net/wangyibo0201/article/details/51705966
iForest （Isolation Forest）孤立森林异常检测入门篇
https://www.jianshu.com/p/5af3c66e0410
海量运维日志异常挖掘
https://myslide.cn/slides/7549
多图 | 如何告别那些没卵用的线上告警！
用于异常检测的几种图划分算法【瀚思安全知识小课堂】
Elastic开发者大会2018 – 基于 Elasticsearch 的 AI 异常检测和画像系统
异常检测之指数平滑（利用elasticsearch来实现）
异常检测：百度是这样做的
外卖订单量预测异常报警模型实践

=END=

15 6 月, 2019

Docker

KnowledgeBase, Security, Tools

IsolationForest, LOF, outlier_detection, 孤立森林, 异常检测