=Start=
缘由:
之前做过一个平台,可以算是简版的UBA/UEBA吧,不过一直没来得及好好收集整理UBA/UEBA相关的资料,系统性的学习总结。这里先整理一篇,方便以后快速参考。
正文:
参考解答:
1. UBA/UEBA的来源和定义
UBA(User Behavior Analytics,用户行为分析)
UEBA(User and Entity Behavior Analytics,用户实体行为分析)
UEBA前身叫UBA(用户行为分析)最早用在网站访问和精准营销方面,通过对相关数据(用户购买、点击、收藏等行为)进行统计、分析,实现用户标签画像,预测用户消费习惯,最终对用户感兴趣商品进行推送,达到精准营销的目的。
Gartner对 UBA/UEBA 的市场分析定位:
- 2014年,Gartner发布了用户行为分析(UBA)市场界定;
- 2015年,Gartner将用户行为分析(UBA)更名为用户实体行为分析(UEBA);
- 2016年,用户实体行为分析(UEBA)入选Gartner十大信息安全技术;
- 2017年,用户实体行为分析(UEBA)厂商强势进入2017年度的Gartner SIEM魔力象限;
- 2018年,用户实体行为分析(UEBA)入选Gartner为安全团队建议的十大新项目。
2. UBA/UEBA能解决什么问题&不能解决什么问题
能解决的问题:
以极高的准确率命中异常事件,使真正的安全威胁浮出水面,这是用户实体行为分析(UEBA)备受关注的主要原因。
用户实体行为分析(UEBA)关联了用户活动和相关实体(用户相关的应用和终端等)信息构建人物角色与群组,进一步定义这些个体与群组的合法和正常行为,把这些人物角色在群体与群体、群体与个体、个体与个体(那些远离合法和正常行为的群体与个体)维度上相互比对分析,将异常用户(失陷账号)和用户异常(非法行为)检测出来,从而达到检测业务欺诈、敏感数据泄露、内部恶意用户、有针对性攻击等高级威胁的目的。
不能解决的问题:
切合实际的讲,企业不可能够通过翻新SIEM或UEBA来实现其从未设计过的功能来应对内部威胁。
3. UBA/UEBA落地的关键事项
- 明确目标(不论是人、工具还是平台,都无法解决没有明确定义的问题);
- 收集高质量的相关日志(避免——垃圾进,垃圾出!!!);
- 经验驱动+机器学习算法驱动(前期靠经验找出明确可确认的问题,后期可以借助机器学习算法分析已找出的问题);
- 相关安全产品联动(安全产品的最终目标是为了避免出安全问题,所以UBA/UEBA能检测出来异常是一方面,能和其它的安全产品联动以避免异常导致安全问题才是能力、价值最大化的体现);
4. UBA/UEBA的最佳实践以及相关厂商
最佳实践参见上面的「落地关键事项」;
相关厂商有:Exabeam、Splunk、LogRhythm、Securonix等。
参考链接:
- 浅析UEBA
- UEBA能解决哪些安全问题#nice
- UEBA能够检测的七大类安全风险
- 【真实案例】用户行为分析如何破解保单信息泄露检测与防护难题 #nice
- 员工风险与UEBA – “安全+” 沙龙第十二期#nice
- 如何利用UBA技术解决内部威胁问题
- Gartner:2017年SIEM(安全信息与事件管理)市场分析
- 实践:UEBA视角下的威胁情报聚类与攻击者分析
- 内部威胁检测:SIEM与UEBA何以失败?#nice
- UEBA应用落地的关键事项#nice
- 新技术驱动新价值!对SOC技术发展方向的四个思考
- UEBA在企业安全领域应用的现状和挑战
- 揭开用户实体行为分析(UEBA)的神秘面纱#nice
- UEBA的预期,特性和最佳实践
- Gartner:2018年十大安全项目
- https://www.cbronline.com/wp-content/uploads/dlm_uploads/2018/07/gartner-market-guide-for-ueba-2018-analyst-report.pdf
=END=
《 “UBA/UEBA的资料收集和学习” 》 有 38 条评论
RedELK – 红队使用的 SIEM 工具,集中化管理日志
https://github.com/outflanknl/RedELK
Gartner:2018年十大安全项目详解
https://mp.weixin.qq.com/s/TAIfmDxkfYVZ4lz6UQjGGg
`
根据Gartner自己的说明,给出了选取十大安全项目的方式。
首先,假定客户已经具备了相当的安全基础。如果连这些基础都没有达到,那么也就不要去追求什么十大安全项目,乃至十大安全技术了。这些基础包括:
1) 已经有了较为先进的EPP(端点保护平台),具备诸如无文件恶意代码检测、内存注入保护和机器学习的功能;
2) 已经做好了基本的Windows账户管理工作;
3) 已经有了IAM;
4) 有了常规化的补丁管理;
5) 已经有了标准化的服务器/云工作负载保护平台代理;
6) 具备较为强健的反垃圾邮件能力;
7) 部署了某种形式的SIEM或者日志管理解决方案,具有基本的检测/响应能力;
8) 建立了备份/恢复机制;
9) 有基本的安全意识培训;
10)具备基本的互联网出口边界安全防护能力,包括URL过滤能力;
没错,对于客户而言,上面10个技术和能力更为基础,优先级更高,如果上述能力都有欠缺,先别轻易考虑什么十大安全项目!
2.1 特权账户管理项目
2.2 符合CARTA方法论的弱点管理项目
2.3 积极的反钓鱼项目
2.4 服务器工作负载的应用控制项目
2.5 微隔离和流可见性项目
2.6 检测和响应项目
2.6.1 EPP+EDR
2.6.2 UEBA
2.6.3 欺骗
2.6.4 MDR服务
2.6.5 小结
这里,我个人小结一下,目前市面上常见的新型威胁检测技术大体上包括:EDR、NTA、UEBA、TIP、网络沙箱、欺骗技术等。可以说这些新型技术各有所长,也各有使用限制。
2.7 云安全配置管理(CSPM)项目
2.8 自动化安全扫描项目
2.9 CASB项目
2.10 软件定义边界项目
`
NDR产品设计二三事
https://mp.weixin.qq.com/s/uTuY-hlzOI9ZXqcOOwQhmQ
UEBA架构设计之路1:UEBA框架
https://mp.weixin.qq.com/s/Sai3h-wNGXc92Va941yG6A
`
实际上,如果设备和用户是可信的,现有的很多方法都检测不到。传统安全产品的缺点是无法检测未知威胁和内部威胁,无法扩展,难以处理大数据。而且攻击者总能找到绕过传统安全技术的方法,比如规则驱动的恶意文件签名,沙盒。此外随着数据量的增加,人工分析越来越慢,响应速度过长。举例来说杀伤链,从入侵到横向移动到渗透,传统安全产品很难关联并作出适当响应,容易被大量误报淹没。
UEBA相对来说具有洞察力和可扩展性,简单说UEBA是大数据驱动,且采用机器学习方法进行安全分析,能够检测高级、隐藏和内部威胁的行为分析技术,不需要使用签名或规则。在杀伤链上能关联数据,进行有针对性的发现,这些分析技术包括机器学习、行为建模、分类、对等组分析、统计模型和图形分析。分析结合评分机制,对比活动,最终实现异常和威胁的检测。同时,UEBA还包括威胁可视化,以可视的方式跨越杀伤链分析。
`
如何构建一个相对安全的账号体系?
https://mp.weixin.qq.com/s/pNHthmCvRPFCNpOrMyyTPg
`
一、你的账号安全吗?
历史总是用惨痛的经历让我们明白一些道理,假如拥有一个健全的账号安全体系,许许多多的安全事故或许就不会发生、或者泄露的数据没那么多,影响没那么大。
二、设计一个相对安全的账号体系
以我的有限的经历来看,假如我是账号的使用者,当我在访问某个系统时,一个安全的账号体系,至少需要解决三个问题,即:
我是谁?我能做什么?我在做什么?
解决了这三个问题,我的一举一动系统就都能掌握,也能够控制。首先,只有知道我是谁,才能确定我能做什么;其次,限制我能做什么不能做什么,是从根本上去除安全隐患;最后,一个系统不可能是完美的,即使设计完美,实现上也可能会有偏差,而了解我在做什么,是确认现有策略是否有效,是一个查漏补缺的措施。
三、认证 — 我是谁
1、认证解决了什么问题
认证所要解决的问题,正是“我是谁”的问题,或者说是确认用户的身份。
2、认证发展的三个阶段
2.1、What you know — 我知道A的某些私密信息,证明我是A
(1)静态密码类
(2)动态密码类问题
2.2、What you have — 我拥有A的某个关键东西,证明我是A
2.3、Who you are — 通过提取我的生物特征,证明我是A
3、认证应该怎么做
(1)多因素认证
(2)多级认证
四、授权 — 我能做什么
1、授权解决了什么问题
2、几种常见的权限控制策略
2.1、OBAC–基于对象的访问控制
2.2、RBAC–基于角色的访问控制
2.3、ABAC–基于属性的访问控制
3、什么样的权限控制策略是好的策略
首先,权限控制的策略多样多化,没有绝对的好与坏之分;不同的应用场景,不同的安全需求,需要选择不同的策略或多种策略的组合,一句话,满足需求即可,不必过分追求。
如果没有特定应用场景要求的话,以我浅薄的经历来看,一个好的权限控制策略,至少需要满足两个原则:
(1)权限最小化
(2)权责分离
五、审计 — 我在做什么
1、审计要解决什么问题
2、实时在线审计
(1)各类黑库过滤
黑IP库、黑手机库、黑IMEI库、黑设备库等等,只要是在黑库中的请求,即可进行直接拦截或重点监控。
(2)聚集分析
账号(UIN/手机号/邮箱/户口所在地等)聚集、IP聚集(IP聚集/IP频繁变更/区域聚集等)、设备(IMEI/GUID/MAC地址)聚集、时间段聚集等,只要有易于往常的明显聚集出现,即恶意攻击的可能性大大增加,可进行告警,人工介入分析;更严重的情况,也可进行拦截。
(3)波动分析
对来自某个业务的请求过大时,可进行限流限频,防止其可能遭受的恶意攻击影响到其他业务正常运行。
对访问量大幅波动的情况,进行告警,人工介入,查看是否正常。
对访问量超过阀值的情况,进行告警,人工介入,查看是否正常。
3、事后离线审计
事后分析既是一种补救的措施,也是一种补充的措施,相对于实时在线审计,离线审计可以在更大的时间范围,做和实时审计相同或不同的分析,从而发现在线审计发现不了的问题,常见的方式包括但不限于以下几种:
(1)构建各类黑库
用更大量的数据去确认线上的可疑对象是否真的是恶意请求,从而建立起更准确的各类黑库,反馈到线上,用于线上实时打击。
(2)构建用户画像
除了直接拉入黑库外,对其余用户进行归类分析处理,以便后续对可疑用户进行重点关注;对安全用户减少关注,但仍需定时审计,以便更合理的利用计算机资源。
(3)改善系统安全
对于已发生的安全事件,可通过审计日志,回溯事件,确认问题所在,用于改善系统安全能力。
六、小结
七、后话
需要说明的是,本文探讨的是怎样构建一个相对安全的账号体系;并不是说,所有的系统都要做到这种安全级别,对于一个没有重要信息或资产,安全性要求也不高的系统,做下简单认证,验下登录态足矣,浪费过多的资源,为其搭建一个庞大复杂的账号体系,反而是拿着牛刀来杀鸡;还是那句话,满足需求即可。
同样地,做到这种安全级别也是不够的,只能说,在当下相对安全而已;随着科技的发展,安全手段在不断增强;未知的安全威胁也在不断增加,让我们一起努力为用户构建一个更安全的账号体系吧。
`
异常检测(anomaly detection)
https://blog.csdn.net/u012328159/article/details/51462942
`
一、异常检测定义及应用领域
先来看什么是异常检测?所谓异常检测就是发现与大部分对象不同的对象,其实就是发现离群点。异常检测有时也称偏差检测。异常对象是相对罕见的。下面来举一些常见的异常检测的应用:
欺诈检测:主要通过检测异常行为来检测是否为盗刷他人信用卡。
入侵检测:检测入侵计算机系统的行为
医疗领域:检测人的健康是否异常
二、常见的异常检测算法
有许多的异常检测算法,不过本篇博客只会详细介绍基于模型的技术。主要有以下几种异常检测方法:
· 基于模型的技术:许多异常检测技术首先建立一个数据模型,异常是那些同模型不能完美拟合的对象。例如,数据分布的模型可以通过估计概率分布的参数来创建。如果一个对象不服从该分布,则认为他是一个异常。
· 基于邻近度的技术:通常可以在对象之间定义邻近性度量,异常对象是那些远离大部分其他对象的对象。当数据能够以二维或者三维散布图呈现时,可以从视觉上检测出基于距离的离群点。
· 基于密度的技术:对象的密度估计可以相对直接计算,特别是当对象之间存在邻近性度量。低密度区域中的对象相对远离近邻,可能被看做为异常。
`
数据挖掘中常见的「异常检测」算法有哪些?
https://www.zhihu.com/question/280696035
有哪些比较好的做异常值检测的方法?
https://www.zhihu.com/question/38066650
Stanford机器学习—第十一讲.异常检测
https://blog.csdn.net/l281865263/article/details/46654353
Abnormal Detection(异常检测)和 Supervised Learning(有监督训练)在异常检测上的应用初探
https://www.cnblogs.com/LittleHann/p/7086851.html
`
1. 异常检测 VS 监督学习
0x1:异常检测算法和监督学习算法的对比
0x2:常见的有监督学习检测算法
0x3:常见的异常检测算法
2. 打标训练样本的获取
0x1: 对安全领域的算法应用 – 打标数据的采集往往是真正麻烦却很重要的事情
3. 有监督学习异常检测
1. A Character-Level Convolutional Neural Network with Embeddings + CNN
0x1: data prepare
0x2: Architecture
2. Graph-based Intrusion Detection on Process Event
4. 基于密度的异常检测
1. Intrusion Detection System using Unsupervised Neural Networks – GNG / SOM
5. 基于邻近度的异常检测
1. Isolation Forest Outlier Detection – 孤立森林 异常检测
2. unsupervised-machine-learning-with-one-class-support-vector-machines – 单分类SVM无监督聚类
0x1: scikit-learn实现的one-class svm demo
0x2:参数优化 – 选择
6. 基于模型(分布建模)的异常检测
0x1:一元高斯分布异常检测
1. 正态分布介绍
2. 正态分布的一些特性
3. 基于一元正态分布的离群点检测方法
4. 使用一元高斯分布进行异常统计前需要关注的问题
5. 一个基于文件创建时间孤立点的异常统计Project – 无监督异常统计
0x2:多元高斯分布异常检测
1. 多元高斯分布数学模型
2. 多元高斯分布图像
3. 多元高斯分布如何进行异常检测?
7. 基于概率统计的异常检测
0x1:基于概率统计模型做异常检测的基本套路
1. 一个关于白样本的很严肃的问题
2. 可用于异常概率统计的评价函数的特点
0x2:马尔科夫不等式
0x3:切比雪夫不等式
0x4:Grubbs’ Test(格拉布斯检测)
1. 算法过程
2. 使用绝对中位差代替均值 – 提高鲁棒性
3. 一个典型的案例
8. 序列数据的异常检测算法
0x1:序列数据的异常分类
1. 语境异常点
2. 异常子序列
3. 异常序列-对比于基础序列
0x2:序列异常检测的挑战
9. 异常检测在工程化项目中怎么用?
0x1:为什么看似很美好的异常检测算法在一些项目中不能完美work?
0x2:结合一些领域知识来缩小假设类的范围
`
外卖订单量预测异常报警模型实践
https://tech.meituan.com/order_holtwinter.html
UEBA架构设计之路2:数据接入和准备
https://mp.weixin.qq.com/s/_NZFQemuaVQ8B6F4itG9_A
`
三、数据接入和准备
数据类型:
应用日志
业务处理日志
点击流数据
配置文件
数据库审计日志
文件系统日志
API日志
消息队列
操作系统状态和诊断命令
包/流数据
Syslog
WEB访问日志
PROXY日志
Windows事件日志
无线数据
数据来源:
……
数据价值:
……
数据连接器
格式检测器
字段映射器
关系图生成器
身份解析和设备解析
事件丰富器
事件视图
会话
`
UEBA架构设计之路3:复杂事件处理引擎
https://mp.weixin.qq.com/s/U1o5Db-1EvwtOCJJ949hJQ
`
四、复杂事件处理引擎
复杂事件处理引擎跟踪分析数据流,这种数据流是无界的,也即是连续接收开放的数据序列,且终点未知。传统引擎都是基于规则的,规则的特点是计算简单,所以在实时计算中消耗较少。但规则的问题是针对已知结论的模式,对未知攻击无法识别,所以他不需要考虑历史事件。历史事件的增加,会对存储和处理能力都有新的要求。
UEBA系统使用基于ML的引擎,分布式训练和多机器学习模型的应用,模型处理事件特征集生成评分和结论。在实时处理中,收到数据,通过机器学习模型,立刻得到结论。事件特征集包括原始数据子集、关联的元数据、原始数据汇总和派生属性、标签以及这些内容的组合。通常事件处理引擎将输入输出都存放在非持久性存储器,提高I / O,减少时延。
对实体的行为分析手段有很多,例如:
概率后缀树(PST)
协同过滤
基于内容的推荐分析
使用文本模型的白名单和黑名单统计匹配
熵/随机性/ n-gram分析的分层时间记忆过程
统一资源定位符
网络资源定位符和域(AGD)
罕见分类特征/关联分析
实体的身份解析模型
陆地速度异常/地理位置分析
离散时间序列数据的贝叶斯时间序列统计基础(基于可变记忆马尔可夫模型和上下文树加权)
周期性模式的动态阈值分析
基于图形的实体活动分析的方法也很多:
命令和控制检测分析
信标检测器
设备,IP,域和用户信誉分析
横向移动检测器
用户/设备的动态指纹识别
相似性和页面排名的实体分组
社交邻域图聚类
在线分布式聚类
二分和通用图聚类
`
用于异常检测的几种图划分算法
https://mp.weixin.qq.com/s/9CQn4qFd88MRU56xBvY_Pw
APT detection based on machine learning
https://mp.weixin.qq.com/s/hKsItaIkwqdbmtvvhG6DYg
https://www.sciencedirect.com/science/article/pii/S0167739X18307532
`
如何能有效的对APT入侵进行检测是目前亟待解决的一个难题,传统的基于APT生命周期的某一环节进行检测的方式,不仅存在漏报的问题,误报率也居高不下,使用者需要设立大量的安全岗位用于分析这些产品的告警事件,APT是一个多环节的攻击方式,作者提出,如果能在APT的多个环节建立入侵检测,并将不同环节的告警事件进行关联,只有能够完整的或部分完整的表达一个APT场景的安全事件集才能真正的被标记为一次APT攻击,通过这种方式能有效降低误报率,提高准确性。作者基于这种思想提出了事件关联模型,并通过机器学习的方式,预测APT攻击,为在安全专家提供APT攻击信息。
模型由三部分构成,分别为Detection/Correlation/Prediction。其中Detection作为APT检测中发现流量中恶意行为监测模块,威胁事件监测是本模型的基础,威胁检测模块作者采用了8种威胁检测模型,分别在APT攻击生命周期的四个环节检测恶意事件,该模块输出为告警事件,告警事件将在Correlation模块分析关联关系,并形成关联事件集,关联事件集由作者根据APT的特性定义的约束关系而生成,根据事件集还会计算该事件集的关联度,关联事件集和关联度将作为Prediction模型的输入,用于训练模型。
`
UEBA架构设计之路4:异常、威胁指标和威胁
https://mp.weixin.qq.com/s/nwIrGybVsZ_zzOsRav1EZA
`
五、异常、威胁指标和威胁
系统平台检测首先异常,进一步基于异常形成威胁。还有一个名词是威胁指标,是指安全威胁的潜在中间级别,安全威胁指标又可分为底层威胁、威胁指标、顶级威胁。之所以这样逐步演进,目标是为了减少误报,降低噪音。
异常表示预期行为发生了变化,变化不一定威胁,但表示了可能引起关注的事件,由于大型系统中异常是海量的,所以在这一步无法进行人工介入调查。例如传入了1亿个事件,产生了100个异常,进一步处理则得到10个威胁指示,再被进一步处理得到1-2个威胁。
1、异常检测
2、识别威胁指标
3、识别威胁指标——实体关联
检测到的异常通常与多个实体相关,比如发现多个设备异常,而设备又和多个用户相关,这些异常组成异常数据集。
4、识别威胁指标——异常持续时间
在时间段t0到tn阶段检测到异常1~N,实际场景中表示短时间内发生大量异常,异常具有开始时间和结束时间,如果检测到的异常持续时间满足标准,则识别为威胁指标。
5、识别威胁指标——罕见度分析
罕见度分析也可以理解为稀有度分析,如果事件确定为罕见,则检测为异常。这种异常检测是局部稀有性分析,在特定实体的背景下观察事件罕见性。基于本地异常汇集成全局稀有性分析,这样异常的数量就是严重程度的重要指标。全局稀有性模型和本地稀有性模型是相同的处理逻辑的模型,不同在于一个是检测集合,一个是检测单个实体。
6、识别威胁指标——关联异常
关联异常是指用不同模型检测同样的数据,同一个数据被稀有度分析模型检测出异常,也被其他模型检测出异常,这样的组合观察能提供更多视图,基于这种组合的结果打分。
上面的关联是并行的,另外一种组合是串行,第一个模型处理完交给第二个模型,例如先看是否有关联异常,再看是否稀有度异常。
7、识别威胁指标——异常数据丰富
除了内部检测模型,还可使用诸如威胁情报之类的外部数据,例如检测到实体连接外部木马远控服务器。通过外部信息合并,可增加置信度,并且在一些情况下识别威胁指示。
8、识别威胁
首先,威胁指示符数据的子集和预定义的安全性场景相关联,根据相关性识别出候选威胁。相关性我们后面再解释,可以理解为类似恶意软件威胁范围关联,或者杀伤链关联组件实体。
接下来把威胁指示数据和预先配置的预设规则比较,例如内部威胁可以和专家规则关联。然后生成模式匹配的分数。如果满足标准则识别为安全威胁。
六、复合关系图
复合关系图的威胁检测过程:
1、接收事件数据
2、生成事件特定关系图(迷你图)
3、获取异常数据并存储
4、将特定关系图压缩组合
5、将特定关系图与异常数据组合成复合关系图
6、从复合关系图和时间范围,使用模型分析
7、模型分析后,将复合关系图转换为异常关系图,识别安全威胁
8、确认异常
`
讨论AI/ML如何促进网络安全之前,先建立对AI/ML的正确认知
https://blog.51cto.com/yepeng/2347250
Gartner:2018年SIEM(安全信息与事件管理)市场分析
https://blog.51cto.com/yepeng/2331306
SANS:2018年SOC调查报告
https://blog.51cto.com/yepeng/2309509
厉害的人是怎么分析问题的?
https://www.zhihu.com/question/304174916/answer/547640584
`
一、明确问题
如果要解决问题,首先得弄清楚期望是什么,目前现状又是如何,这样才能精准定义问题所在。
明确的问题,才能得到正确的答案,这是第一步。
第一步,校准目标B
目标要符合SMART原则,同时要避免把手段当成目标;
第二步,重构方法A
现状是由原来的方法导致的,因此,想要改变现状,不是从现状出发,添加一个新的解决方案,而是回过头,重构原来的方法系统。
第三步,消除变量C
如果AB都没有问题,问题依然存在,一定存在着变量,你可以通过「象、数、理」这个基本框架来寻找它,并通过5Why的提问方法,挖掘真正的原因。
二、系统思考
金字塔原理
系统之美
第五项修炼
三、大体套路/流程
分析的第一步,永远是从梳理问题开始的,把问题点尽可能细致的弄清楚,所谓收集信息,从接到问题这一刻就开始了。当然这里有套路可以用,比如5w2h方法。
在梳理完问题以后,第二步开始针对问题细节采集数据,验证思路。这里又是一个复杂的采集信息的过程。
第三步,在拿回足够多的数据以后,分析的方法就多了。讲商业分析的书也有很多,之前也有很多答主做了分享。这里不赘述了。有意思的是,很多不会对外公开的秘籍,也是建立在大量采集信息的基础上的。比如大家好不好奇,我们做咨询的怎么判断客户靠不靠谱?一图概括如下,大家感受一下,没有大量的信息,所谓思维方法,真的就是无源之水、无根之木。
`
假阳性和假阴性
https://www.shuxuele.com/data/probability-false-negatives-positives.html
`
False Positive,假阳性, false(不能成功的判定为) 正向的, 误报
False Negative,假阴性, false(不能成功的判定为) 负向的, 漏报
`
敏感性、特异性、假阳性、假阴性(sensitivity and specificity)
https://www.cnblogs.com/leezx/p/6105212.html
阳性,阴性,假阳性,假阴性,敏感度,特异性
https://blog.csdn.net/pursuit_zhangyu/article/details/80771978
`
一般从医学角度说,阳性(positive),代表有病或者有病毒,阴性(negative),代表正常。
假阳性(false positive)是指因为种种原因把不具备阳性症状的人检测出阳性的结果。其实就是将没病的检查成有病的,假阳性检测结果易造成误诊,
假阴性(false negative)就是将有病的检查为没病,假阴性结果导致漏诊。
敏感度(sensitivity):又称真阳性率,即患者被诊断为阳性的概率,计算公式是:真阳性/(真阳性+假阴性)×100%,此值越大,说明诊断试验越灵敏。
特异度(specificity):又称真阴性率,即实际上未患病的人被诊断为阴性的概率,计算公式是:真阴性/(真阴性+假阳性)×100%,此值越大,说明诊断试验越精确。
`
false positive – FP – 假阳性(误报)
https://whatis.techtarget.com/definition/false-positive
https://en.wikipedia.org/wiki/False_positive_rate
false negative – 假阴性(漏报)
https://en.wikipedia.org/wiki/False_positives_and_false_negatives
异常检测的N种方法,阿里工程师都盘出来了
https://mp.weixin.qq.com/s/kv-ZrOF4nnxXoQwFOodzjA
`
小叽导读:互联网黑产盛行,其作弊手段层出不穷,导致广告效果降低,APP推广成本暴增。精准识别作弊是互联网公司和广告主的殷切期望。今天我们将从时间序列、统计、距离、线性方法、分布、树、图、行为序列、有监督机器学习和深度学习模型等多个角度探讨异常检测。
异常点检测(Outlier detection),又称为离群点检测,是找出与预期对象的行为差异较大的对象的一个检测过程。这些被检测出的对象被称为异常点或者离群点。异常点检测在生产生活中有着广泛应用,比如信用卡反欺诈、工业损毁检测、广告点击反作弊等。
1.时间序列
1.1 移动平均(Moving Average,MA)
1.2 同比和环比
1.3 时序指标异常检测(STL+GESD)
2.统计
2.1 单特征且符合高斯分布
2.2 多个不相关特征且均符合高斯分布
2.3 多个特征相关,且符合多元高斯分布
2.4 马氏距离(Mahalanobis distance)
2.5 箱线图
3.距离
3.1、基于角度的异常点检测
3.2 基于KNN的异常点检测
4.线性方法(矩阵分解和PCA降维)
5.分布
5.1 相对熵(KL散度)
5.2 卡方检验
6.树(孤立森林)
7.图
7.1 最大联通图
7.2 标签传播聚类
8.行为序列(马尔科夫链)
9.有监督模型
9.1 机器学习模型GBDT
9.2 深度学习模型Wide&Deep
10.其他问题
10.1 常用选择阈值的思路
上述各种方法都需要计算异常阈值,可以用下述思路先选阈值,再用转化数据验证该阈值的合理性。
a.无监督方法:使用分位点定阈值、找历史数据的分布曲线的拐点;
b.有监督模型:看验证集的准召曲线
10.2 非高斯分布转高斯分布
`
[译] 时间顺序的价格异常检测
https://juejin.im/post/5c998f8ae51d454e523b6ed5
https://github.com/xitu/gold-miner/blob/master/TODO1/time-series-of-price-anomaly-detection.md
https://towardsdatascience.com/time-series-of-price-anomaly-detection-13586cd5ff46?gi=777bb871e246
`
录
时间序列的价格异常检测
数据
时间序列可视化
基于聚类的异常检测
k-平均算法
使用孤立森林进行异常检测
基于支持向量机的异常检测(SVM)
OneClassSVM
使用高斯分布进行异常检测
`
Security Data Science Learning Resources
https://mp.weixin.qq.com/s/d41FwL7MiIHuI3Zo2dHG7Q
https://medium.com/@jason_trost/security-data-science-learning-resources-8f7586995040
UEBA架构设计之路8: 恶意软件检测
https://www.secpulse.com/archives/106413.html
`
UEBA架构设计之路1:UEBA框架
UEBA架构设计之路2:数据接入和准备
UEBA架构设计之路3:复杂事件处理引擎
UEBA架构设计之路4:异常、威胁指标和威胁
UEBA架构设计之路5: 概率后缀树模型
UEBA架构设计之路6: 图聚类
UEBA架构设计之路7: 横向移动检测
`
你真的懂用户画像吗?
https://www.infoq.cn/article/s4iQ*VERW8E145NhCUzv
`
在移动互联网时代,精细化运营成为企业重要的竞争力,此时,“用户画像”的概念也应运而生。用户画像是指,在大数据时代,我们通过对海量数字信息进行清洗、聚类、分析,从而将数据抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。在下文中,我们将以个推用户画像产品为例,为你详解“用户画像”的技术特点和使用价值。
用户画像的形成需要经历四个过程,主要包括数据收集、数据清洗、数据建模分析、数据产出。其中,数据清洗和数据建模统称数据处理。
“用户画像”的构建需要技术和业务人员的共同参与,以避免形式化的用户画像,具体做法可参考个推构建用户画像的流程:
(1)标签体系设计。开发者需要先了解自身的数据,确定需要设计的标签形式。
(2)基础数据收集、多数据源数据融合。在建设用户画像时,个推用户画像产品会整合个推以及该 APP 自身的数据。
(3)实现用户统一标识。多数情况下,APP 的众多用户分布于不同的账号体系中,个推会将其统一标识,帮助 APP 打通账号,实现信息快速共享。
(4)用户画像特征层构建,即将每一个数据进行特征化。
(5)画像标签规则 + 算法建模,两者缺一不可。在实际的应用中,算法难以解决的问题,利用简单的规则也可以达到很好的效果。
(6)利用算法对所有用户打标签。
(7)画像质量监控。在实际的应用中,用户画像会产生一定的波动,为了解决这个问题,个推建设了相应的监控系统,对画像的质量进行监控。
总之,个推用户画像构建的整体流程,可以概况为三个部分:
第一,基础数据处理。基础数据包括用户设备信息、用户的线上 APP 偏好以及线下场景数据等。
第二,画像中间数据处理。处理结果包括线上 APP 偏好特征和线下场景特征等。
第三,画像信息表。表中应有四种信息:设备基础属性;用户基础画像,包括用户的性别、年龄段、相关消费水平等;用户兴趣画像,即用户更有兴趣的方向,比如用户更偏好拼团还是海淘;用户其它画像等。
`
用户画像建设过程简析
http://luodonggan.com/wordpress/?p=451
用户画像:标签化就是数据的抽象能力
https://www.sylviahsy.xyz/数据分析/2018/12/28/用户画像:标签化就是数据的抽象能力.html
https://wild2pro.com/DataAnalysisLearning06.html
58用户画像实践
http://www.jqbxx.com/article/21
47页PPT,用户画像架构、指标标签、ETL性能及案例一站通
https://zhuanlan.zhihu.com/p/41547953
https://ask.hellobi.com/blog/pythoncrawl/category/1896
如何为SOC注入“源头活水”?
https://mp.weixin.qq.com/s/Zfpv5Hj9G-bhbPR4oTcoJw
`
# 从SIEM到SOC的变与不变
一切工作均始于数据,数据乃SOC之根源。
# 现在的态势感知到底还缺什么?
要实现良好的态势感知功能,就要从多种来源收集可靠数据。没有高质量的数据来源,SOC也就是一个花瓶摆设。但是正如上文所说,现在SOC数据来源于有很多,但是大部分都是网络侧流量数据、日志等。主要是通过对互联网节点网络流量进行监控探测,形成局部的威胁事件采集能力,这实际上是一种基于事件检测维度的视角。但受限于威胁情报来源、数据分析能力和安全响应能力,市场上很多态势感知仅仅是通过一些安全可视化方法做了数据的图像呈现。甚至很多人都认为态势感知就是大屏展示的“安全地图”,只用于直观显示网络环境的实时安全状况,比如了解网络的状态、受攻击情况、攻击来源等。这类态势感知产品具有一定威胁展示的直观性,但从感知深度、感知广度和感知的有效覆盖范围来看,远未达到“全天候全方位感知网络安全态势”的要求。
那么态势感知一个合理视角应该是什么?笔者认为应该从以事件为中心转到以资产为中心。从哲学角度看,态势感知是对网络空间中的主体、客体和关系进行认识和表达的过程。攻击方、用户、厂商等属于主体,而攻击工具、服务器、虚拟数据资产等都属于客体。
现有态势感知缺乏主机相关信息,对于失陷主机的“态”及脆弱主机的“势”无法精准有效的呈现。而全方位感知网络安全态势,要求除了对基于网络流量进行威胁可视化呈现,还要求对全网主机及关键节点的综合信息进行网络态势监控。
如果无法获得正确的数据,则无法实现这些数据的预期用途。没有数据就意味着防护人员无法看到攻击行为,从而也就没办实行防护方案。
那么如何获得高价值数据?我们需要确保做好以下方面的工作,才能确保SIEM、SOC等产品可以使用特定日志数据:
1)配置好初始系统,以便生成所需的遥测数据
2)让初始系统通过syslog推送或通过从SIEM工具提取API来访问日志数据
3)解析这些日志数据,以增强其可用性
`
基于时间序列的告警关联分析
https://mp.weixin.qq.com/s/ilcVKhQ-5Uxcku-NjupYiA
`
5.异常检测算法的问题:我凭什么相信你
“算法听起来不错,但是结果我们都看不懂,我凭什么相信你?”
但是在使用实际数据测试后,又出现了新的问题。对于关联规则匹配到的告警,安全运营人员可以根据命中的规则,很容易知道这条告警为什么需要优先关注和处理;但是对于异常事件序列挖掘算法得到的告警,安全运营人员只能知道这些告警是异常,但不知道为什么会异常,不知道该从哪些角度进行处理和调查。
一方面,对于实际使用的甲方企业安全运营人员来说,算法是一个黑盒,他们并不了解其中的细节和处理流程,以及为什么会得到这个结果,不了解产生了不信任;另一方面,安全问题相对其他问题来说具有更高的风险,犯错成本很高,既会浪费人力去进行排查分析,又可能会对正常业务造成影响。
综合这两个因素,我们需要对异常检测的结果进行解释,尽量告诉用户,为什么会把这些告警筛选出来,它们到底哪里值得关注。
6.无监督异常检测的可解释性
为了对于异常事件序列检测得到的异常序列样本进行解释,我们采用的方法是计算样本的每个特征的异常分数,找到显著异常的特征,从而解释“为什么我们认为这个样本是异常的”。在这里异常分数使用z-score。
具体操作方法如下:计算这些样本在每个特征上的z-score,将z-score作为该特征的重要性,最后按照特征重要性对特征进行排序,选出重要性Top 3且满足阈值的特征,作为该样本异常的解释。
通过这种方法对每个异常event序列进行解释,输出对应的异常特征和描述,安全运营人员可以根据异常特征对序列进行筛选,快速定位到真正的高威胁告警。
7.结语:一个未完成的故事
通过关联规则+异常事件序列挖掘的配合,御见实现了从海量的告警中找到真正高威胁或者高优先级的告警的目标。当然目前的方案还有不足之处,例如找到的异常告警的类型有限,严重依赖统计特征等等。我们还在尝试更多方案,希望能够真正帮助企业提高安全运营效率,降低安全风险。
`
基于图挖掘的安全事件分析
https://mp.weixin.qq.com/s/ARfMqrUxiPKmbMcV_yaluw
`
安全运营人员每天都会收到海量的攻击事件告警信息,这些告警涉及大量实体,导致安全运营人员无从下手,运营效率极低。另外,这些告警信息一般以列表的形式展示,无法直观地展示攻击关系,不利于安全运营人员快速感知异常。最后的结果就是,虽有海量告警,但绝大多数都没有得到及时处理,这样对企业造成的安全隐患极大。
网络环境本身具有典型的图结构,网络安全问题也因此很自然的与图数据结构、图算法结合起来。在Google提出知识图谱的概念之后,以知识图谱技术为基础的智能应用方案,已经在推荐系统、问答系统、搜索引擎、社交网络、风控等领域广为使用。在安全领域,最常见的图就是各大安全产品中的可视化界面中资产关系图、攻击向量图等。通过图进行数据关联和推理方面,国内外厂商也在不断的进行深入的尝试。很自然的,腾讯安全智能团队也决定用图挖掘来解决安全运营人员遇到的困境:
图结构的天然优势是可以非常直观地展示安全问题中的攻击链路,方便安全人员进行事件调查。但我们还需要确定安全事件的优先关注顺序,帮助安全运营人员用最小的精力解决最重要的问题,而不是淹没在安全事件的海洋中。因此,我们的目标确定为:从海量安全事件中提取最值得关注的事件,并以图谱形式反馈,协助安全人员快速定位问题,提升运营效率。
这里最值得关注的事件有两个特征:恶意程度高、波及范围广,这两个特征将作为对子图进行打分排序的最重要依据。换句话说,我们的主要目标是用最合适的方法抽取子图,并基于以上特征对子图进行排序。
六、结论及展望
1.结论
本文通过对安全运营场景下的事件攻击链进行图挖掘分析与探索,将海量安全事件聚合成重点突出的top子图社区,并以可视化的形式展示:既有全局视角,又可以轻松抓住重点关注事件,大大提升了安全运营人员的工作效率。
2.展望
目前诸多国际安全厂商正在加紧智慧安全技术的布局,其中的核心就是网络安全领域知识图谱的构建工作,分为四层:基于资产、用户等信息的环境数据图,基于告警、安全日志的行为数据图,基于外部威胁情报的情报数据图和基于各类知识库(如ATT&CK、CAPEC、CWE等)的知识数据图。现在这方面国际领先的产品是IBM Watson,它主要基于企业数据和威胁情报信息,通过机器学习获得的训练系统支持理解、推理、学习及自然语言交流的能力,从而实现自动化快速、准确地定位和响应威胁的能力,大大提升了安全运营人员的效率。
现在我们还只是利用了告警日志进行优先级评估及场景预测,距离自动化分析及推理还有一些距离。接下来我们需要做的是不断补充安全大数据,构建完备的安全知识图谱,然后结合人工经验去做建立一套安全事件调查系统,从根本上解放人力。
`
什么是 Azure Sentinel?
https://docs.microsoft.com/zh-cn/azure/sentinel/overview
`
Microsoft Azure Sentinel 是可扩展的云原生安全信息事件管理 (SIEM) 和安全业务流程自动响应 (SOAR) 解决方案。 Azure Sentinel 在整个企业范围内提供智能安全分析和威胁智能,为警报检测、威胁可见性、主动搜寻和威胁响应提供单一解决方案。
Azure Sentinel 提供整个企业安全局势的鸟瞰图,可以缓解日益复杂的攻击和不断增加的警报量,并可以缩短解决问题所需的时间。
* 跨所有用户、设备、应用程序和基础结构(包括本地和多个云)以云规模收集数据。
* 检测以前未检测到的威胁,并使用 Microsoft 的分析和无与伦比的威胁智能,最大限度地减少误报。
* 借助人工智能调查威胁,结合 Microsoft 多年以来的网络安全工作经验大规模搜寻可疑活动。
* 通过内置的业务流程和常见任务自动化快速响应事件。
`
互联网公司抓内鬼指南V1
https://mp.weixin.qq.com/s/jOK5LULW6fxKv88HSln23A
`
如果说做风控什么最好玩儿。我的答案是,抓内鬼,最好玩。
什么是内鬼?说白了就是拿公司的钱来给自己捞好处的人。
为什么抓内鬼好玩儿?
因为抓内鬼是为数不多的可以扬眉吐气的日子,平时都是给研发和业务当狗。
* 对上,老板肯定是不允许除他和他亲戚以外的人来坑走公司的钱而且没有分给他,所以抓内鬼这件事情和老板的利益一致,并且挽回的损失都是老板的钱。
当然老板就是要搞数据骗投资人的除外,不过搞数据的时候,也得注意别让买数据的坑了。
* 对下,抓内鬼为数不多可以站在道德制高点和法律制高点来干的工作,毕竟盗窃公司财产于情于理都是无解的问题。
所以今天,我打算简单讲一讲,一个风控抓内鬼的简单思路。
这些思路其实是适合很多行业的,希望各位老板看了之后可以好好的研究一下自己的钱到底哪去了。
先来谈一个最常见的领域,活动运营,也就是发券or补贴。
怎么去抓发券or补贴的内鬼行为,核心思路是,抓链路和关联度。
简而言之,关注这几个核心问题。
1.发出去的补贴,到底被谁拿走了?
2.这些拿补贴的人,到底有什么关系?
3.这些被拿走的补贴,是经过了哪些链路?
4.补贴出自谁手?是否有人经常出现被薅?
再谈一个比较容易被忽略的领域,数据采购。
数据采购一直是一个内鬼严重但是并未被真正重视的领域。数据采购里面懂行或者不懂行,完全可以造成成本的天壤之别。
1.拉新
2.核身数据
第一是价格,由于核身类数据本身市场上能提供的供应商比较多,所以这个行业默认的规则就是为甲方的采购负责人提供一点回扣,例如合同上查一次3毛钱,但是实际上其中有5分钱以其他的方式给到相关负责人。
第二是要盘查业务必要性。
第三是要盘查缓存使用情况。
第四是业务必须数据有效性评估
简单科普了一点点抓内鬼的思路,后面还会有其他的文章给到其他方向的思路,抓内鬼真的是很有意思的一件事情。
与人斗,其乐无穷。
其实不管是抓羊毛党还是抓内鬼,核心原理还是从利益角度出发,只要存在利益的地方,就一定存在猫腻,这是人类本性的贪婪。
顺着利益链去抓,一定多多少少都有问题。
但是,很多问题其实老板都知道,只不过从老板的角度出发,从公司整体利益的角度出发,会做出不同的决策。
很多时候,很多关键岗位的人,其实暂时容忍他们的谋私行为,对公司整体可能会有更多的好处。
不是说有问题就一定要抓问题的,抓大放小,也是一种智慧。
所以做风控最重要的是什么?
是要学会洞悉一切,把信息都抓出来。
然后装傻。
做人又何尝不是如此呢。
`
智能威胁检测:基于SOC时间序列算法的数据汇聚检测
https://mp.weixin.qq.com/s/YaVSvSegjpP-R6VEwylNMw
Ponemon:SOC出效果要花多少钱
https://mp.weixin.qq.com/s/_ws2utUpu5pmDLT60kufsA
`
2020年1月份,Ponemon发布了一份题为《SOC的经济学:出效果到底要花多少钱》的调研报告。调查表明:SOC花费不菲,效果一般,但意义重大。
通过对637份有效问卷【文中未提及地理区域,笔者估计受访者主要是北美地区。此外受访者所在单位人数最低1000人起】的分析,自建SOC的年均支出在286万美元。而令人意外的是,委建SOC(购买MSSP服务)的年均支出达到了444万美元,大幅高出自建SOC,与人们对MSSP的预期完全不符。只有17%的受访者表示他们的MSSP是“高效的”。此外,51%的受访单位对于他们SOC检测攻击的有效性表示满意。而有44%的人表示其SOC的投资回报率正在恶化。
尽管SOC的投资回报率平平,但大部分受访者依然将SOC视为其网络安全战略的关键要素,尤其是在降低误报、报告安全情报方面。为了达成效果,SOC十分依赖于专业的分析师去阻断、检测、分析和响应安全事件,而这些专业分析师的成本很高。为了降低人员开支,不少单位转而求助于MSSP,但回头发现花费更多,因而陷入了恶性循环。
`
Ponemon:提升SOC的有效性
https://mp.weixin.qq.com/s/VxsOsHXKsih2JWoVxKkHFQ
Ponemon调研报告揭示安全自动化和AI的价值定位以及与人的关系
https://mp.weixin.qq.com/s/HsrnXN7y4LYfW__4ZTZD-w
腾讯御见UEBA
https://mp.weixin.qq.com/s/u5HFEnhzNt4GbnqGuSrKGw
`
一、背景
2019 verizon数据泄露调查报告指出,34%的数据泄露涉及企业内部人员。内部人员对企业构成了特殊的威胁,传统安全产品无法检测,因为他们有权限访问内部系统,通常能够绕过安全措施,从而给安全团队造成安全盲点。大多数网络安全专家都认为,企业网络安全系统中最薄弱的环节是其员工。据网络安全咨询公司CrowdStrike研究发现,百分之五到百分之十的员工会点击钓鱼邮件,点击钓鱼邮件受害者的计算机将自动运行恶意程序并被完全控制,攻击者进而通过合法的身份账号做数据窃取等不法操作而不被发现。内部威胁,内部人员风险对企业安全尤其重要。
攻击变得越来越复杂,传统安全解决方案大多基于规则的单点检测,往往检测不到或发现更多未知威胁。针对越来越复杂的攻击,需要打破单点检测引入行为分析等高级分析方法。
二、UEBA现状及发展趋势
用户和实体行为分析(UEBA)是企业安全性中增长最快的领域之一,据Gartner称,其年复合增长率为48%。
Gartner 2019年“Market Guide for User and Entity Behavior Analytics”指出:
① 用户和实体行为分析技术已经被大中型企业在一系列使用案例中的使用所证明。
Gartner主要从3个维度定义UEBA(场景,分析方法,数据源):
数据:UEBA采集多源数据,例如事件日志,用户上下文数据,网络流量等等;关联更多的数据能更好刻画用户实体的行为活动,能更好的通过分析方法识别未知风险。
场景:UEBA需要清楚的定义检测或解决的场景,明确每个场景输出才能体现产品价值。
分析方法:多种分析方法,从传统的基于规则到UEBA采用的一系列分析方法包括规则、统计学习、有监督、无监督、深度学习、GAN等高级分析方法。
② UEBA可以是一种解决方案的单独产品,也可以作为UEBA特性嵌入到其他安全产品中。未来UEBA将以提供高级分析能力或模块的方式逐渐嵌入到SIEM等安全产品中。
③ 一些买家发现,UEBA的部署需要较多的时间和精力,添加新的或自定义的检测场景可能很艰巨,需要数据科学和分析方面的专业知识。
三、腾讯御见UEBA及产品特性
腾讯御见UEBA(用户实体行为分析)面向政企办公安全、数据安全、员工行为管理,使用一系列分析方法(统计学习、机器学习等高级分析方法)通过分析用户实体(用户、应用、设备、主机等)相关行为日志构建用户实体画像(静态画像、动态画像),然后基于用户实体画像进行风险检测、风险分析、风险评估,最终识别内部风险用户和风险实体。
御见UEBA是单独的解决方案或产品,也可以作为一种高级分析能力或模块嵌入到御见SOC中。御见UEBA提供两种方式:一种是UEBA单独产品;一种是嵌入到御见SOC作为UEBA模块,并给产品提供高级分析能力。
违规用户:
① 存在账号共享情况,共享账号带来风险;
② 内部高权限用户进行违规操作,违规退改;
③ 部分用户大量进行敏感查询并泄漏敏感信息。
失陷用户:
① 账号丢失;
② 账号被暴力破解。
恶意用户:
① 用户进行非法高危操作:删除数据、修改业务信息;
② 用户利用逻辑漏洞干扰正常业务;
③ 用户窃取敏感数据信息。
四、腾讯御见UEBA的产品架构
用户应用数据采集:UEBA从多个数据源采集数据供后续关联分析,比如应用访问日志,堡垒机日志,主机风险日志,数据库审计日志等等。
风险智能检测:将多源数据输入到风险智能检测引擎进行数据分析,通过统计学习、有监督无监督、异常检测等方法构建单体行为基线、群体行为基线以检测用户应用偏离基线等潜在风险。
用户应用风险输出:通过统计学习、机器学习等一系列分析方法识别应用风险、数据风险、人员风险、计算环境安全风险。
风险监控调查:统计各项应用运营指标,企业应用整体运营状况一目了然。持续监控应用运行风险,应用安全心中有数;多种算法规则感知企业应用风险,应用和人员风险全面感知。
五、腾讯御见UEBA主要功能
腾讯御见UEBA提供多源数据接入、日志检索、用户实体画像、用户实体风险分析、用户权限梳理、应用业务梳理、用户实体风险评分、仪表盘、AI检测平台等多种功能。
其中核心功能主要有:用户实体画像、用户实体风险分析、用户权限梳理、应用业务梳理、用户实体风险评分等。
特色功能有:AI自定义检测平台(可配置的基线建模平台)
六、御见UEBA典型场景
御见UEBA内置了4类20多种典型场景以覆盖账号安全、办公安全、数据安全和业务安全,包括账号风险,离职员工权限风险,内部数据窃取,研发凭证外泄风险,研发数据泄漏风险,研发运维恶意操作等等。
账号风险:针对企业员工VPN、OA等办公应用账号被攻击者窃取的风险监控。
离职员工权限风险:针对离职员工仍然具有权限,登录办公应用或业务系统的风险监控。
内部数据窃取:针对企业员工对内部OA、HR等系统数据的异常访问和窃取风险监控。
研发凭证外泄风险:针对研发运维账号外泄,存在外部异常登录行为的监控。
研发数据泄漏风险:针对内部源代码、数据库等研发数据泄漏风险的监控。
研发运维恶意操作:针对研发运维人员的高风险操作检测,以及异常行为预警。
`
腾讯御见UEBA背后的技术
https://mp.weixin.qq.com/s/YBmzeW32VEgvppV3IuAnUg
`
一:御见UEBA技术架构
御见UEBA技术架构如下图所示,主要包括3个部分:数据采集,智能检测分析平台,行为风险评估。UEBA采集多源数据例如登录日志,访问日志,其他安全产品日志,流量数据等,并对多源日志进行关联、分析、检测,基于行为分析等多种方法识别政企内部的用户风险和业务风险。
1. 数据采集
UEBA采集的数据源主要有三类:登录日志;访问日志;其他日志。
登录日志:主要记录用户认证登录业务、系统或应用的行为日志。例如:IAM统一认证登录日志,IOA登录认证日志,VPN日志,核心业务登录日志,AD日志,LDAP日志等等;
访问日志:主要记录用户认证登录成功后访问业务、系统或应用产生的行为日志。例如:里约网关访问日志,IOA应用访问日志,堡垒机日志,数据库审计日志,门禁日志,其他核心业务访问日志等等;
其他日志:主要包括其他安全产品日志,流量日志。例如:DLP日志,IOA日志,威胁情报,flow数据,其他安全产品日志等等。
1. 画像体系
御见UEBA分析的对象主要包括用户、设备、资产、应用等等,当多源日志接入以后会自动构建用户实体画像体系,持续丰富更新用户实体的静态画像和动态画像。
用户实体静态画像:及时更新维护用户实体的静态信息,例如:用户身份、部门、岗位、权限、账号;设备归属;资产身份及重要性;应用敏感度等等。
用户实体动态画像:持续监控用户实体行为建立动态画像。
基于Spark计算引擎实时监控用户实体的行为统计提取行为特征,并通过机器学习算法基于分析对象行为特征建立历史基线画像、同类画像及动态分组;分析对象的行为不是静态不变而是随着时间动态变化的,统计画像、历史基线画像和同类画像就构成了分析对象的动态画像,用来刻画分析对象的动态个性。
动态画像例如:用户访问敏感数据的历史频次等等;用户当天访问某个资产的时间,地点,操作行为等等;资产与其他资产通信情况或用户访问资产情况等等;设备当前登录次数,使用状态等等。
2) 可解释性
可解释性:企业场景下,为了客户快速定位威胁,检测结果必须具有可解释性。即模型既要有规则没有的发现未知的能力同时要像规则一样有较好的可解释性。
基于数据及检测场景特点,我们将行为建模算法主要分为两类:时间序列建模和行为分析建模。
时间序列建模的可解释性:时间序列有天然的可解释性,将时间序列数据及异常点可视化展示即可,如下图示例可见。
行为分析建模的可解释性:我们在行为分析算法后增加z-score可解释性模块,用来解释模型。z-score 可解释性模块的输出是引起异常最重要的特征集合、特征值及偏离程度,这些指标能很好的解释模型结果。
`
用户画像
https://mp.weixin.qq.com/s/WbBUX2g_XhGXrH9xtv0i2Q
用户画像建模与应用
https://mp.weixin.qq.com/s/-NVpQVn0FPoJR4aE5c60zQ
干货 | 用户画像在携程商旅的实践
https://mp.weixin.qq.com/s/ubLP7RBfd11GsTECoTlI8A
网易大数据用户画像实践
https://mp.weixin.qq.com/s/jyiDWiK0zczEaZKY5Hy5xg
用户实体行为分析技术(UEBA)(2020年)
http://www.caict.ac.cn/kxyj/qwfb/ztbg/202006/P020200619441768543756.pdf
`
组织面临的严峻网络安全挑战来自四个方面:
1.越来越多的外部攻击,包括被利益驱动或国家驱动的难以察觉的高级攻击;
2.心怀恶意的内鬼、疏忽大意的员工、失陷账号与失陷主机导致的各种内部威胁;
3.数字化基础设施的脆弱性和风险暴露面越来越多,业务需求多变持续加剧的问题;
4.安全团队人员不足或能力有限,深陷不对称的“安全战争”之中。
2012 年咨询公司高德纳(Gartner)发表了一份题为《信息安全正在成为一个大数据分析问题》的报告(Information Security Is Becoming a Big Data Analytics Problem, Gartner),提出当前信息安全问题正在转变成大数据分析问题,大数据的出现将对信息安全产生深远的影响。在数字时代,安全团队迫切希望通过大数据分析和机器学习,提高内部威胁和外部攻击的可见性,提升威胁检测响应能力,成为组织探索将安全分析应用于其网络和其他数据源的关键驱动因素。
用户实体行为分析(UEBA)就是安全新范式的一个典型体现,其新范式的破局之道主要体现在如下五个方面:
1.行为分析导向
2.聚焦用户与实体
3.全时空分析
4.机器学习驱动
5.异常检测
UEBA 的价值主要体现在:
1.发现未知
2.增强安全可见
3.提升能效
4.降低成本
`
吴恩达最新采访:以数据为中心的AI
https://new.qq.com/omn/20220213/20220213A04MIC00.html
`
IEEE:您如何定义“以数据为中心的AI”,为什么会称它为一场运动?
吴恩达:“以数据为中心的AI”是一个系统的学科,旨在将关注点放在构建AI系统所需的数据上。对于AI系统,用代码实现算法,然后在数据集上训练是非常必要的。过去十年,人们一直在遵循“下载数据集,改进代码”这一范式,多亏了这种范式,深度学习获得了巨大的成功。
但对许多应用程序来说,代码—神经网络架构,已经基本解决,不会成为大的难点。因此保持神经网络架构固定,寻找改进数据的方法,才会更有效率。
IEEE:大多数公司只要少量数据,那么“以数据为中心的AI”如何帮助他们?
吴恩达:我曾用3.5亿张图像构建了一个人脸识别系统,你或许也经常听到用数百万张图像构建视觉系统的故事。但这些规模产物下的架构,是无法只用50张图片构建系统的。事实证明。如果你只有50张高质量的图片,仍然可以产生非常有价值的东西,例如缺陷系统检测。在许多行业,大数据集并不存在,因此,我认为目前必须将重点“从大数据转移到高质量数据”。其实,只要拥有50个好数据(examples),就足以向神经网络解释你想让它学习什么。
`
SOC接入哪些日志比较有用?内网传输是否一定需要开启SSL?企业内网访问微信服务,如何知道微信验证的IP段? | 总第127周
https://mp.weixin.qq.com/s/7zzEkh8Lb0MBCLKHUTM3dQ
`
# 话题1:大家接入soc的日志,都是哪些设备的日志比较有用?或者是难点?如:第一类接资产类数据,包括资产、漏扫的数据;第二类接安全设备的日志,主要接流量检测、防火墙、WAF、IDS、VPN、堡垒机、终端安全软件等;第三类接网络设备,路由器、交换机都接。
**A1:接什么日志,跟你想要解决什么问题有关,先想好数据使用场景,要解决什么问题,再去接日志。不然接入海量日子放到磁盘里,带来存储成本,老板每个月都问你投资回报率ROI。**
A2:我们上述日志都接了,看你是先定场景根据场景接,还是先接了再去in,推荐先定场景,我们目前比较香的有DNS日志、主机类日志、主机hids类日志和流量日志,其他日志感觉没啥用,尤其是win日志,感觉都用不上。
DNS日志的场景是内网DNS日志匹配多源情报,打标签标记。虽然DNS日志在流量里就能看到,但我感觉有的不准,而且镜像流量也不全,因此我们是直接把所有dns日志发出来了。
我们现在延伸出额外的问题…..谁去处理?SOC非常“吃人”,我们是别说运行了,就每天检查这些功能、接口的有效性都忙不过来,而且还要验证平台功能的有效性,接口数据同步的有效性和策略有效性。
A3:我也在考虑建设,目前SOC一期的建设规划想到的有:
* 人员
* 数据源和场景构建
* 数据使用和数据归档
* CMDB和工单(第二期以后)。
A4:waf记全量日志也非常有作用。为什么不先接告警设备的呢?先汇聚在一起,对设备告警做关联、过滤,减少误报,增加可运营性,参照siem的思路。基础设备的日志,需要自己做策略匹配到风险,这是乙方厂商该做的事情。
A5:告警设备,有比如IDS、IPS误报率高,感觉比较鸡肋。常说的,garbage in, garbage out(垃圾进垃圾出)。一般如果误报率高的信息源接入,期望通过关联分析,提升可靠度,这个思路没问题,但落地实践是带来的问题比解决的问题多。传统NIDS这块不建议接,更偏向合规,不过横向移动的时候ids还是有用的,入向告警误报太多,出向可以结合情报检测内网失陷主机。
# 话题2:内网传输是否一定需要开启SSL ?
**A1:不建议加密,加密了还得卸载SSL,麻烦的一匹。内网关键操作的走https就好了,像OA之类的,有很多敏感操作,加密好一点。内网控制好导入导出,可以降低不加密的风险。**
**A2:一般内网的重要系统、无大量数据传输的可以开SSL,比如办公系统。涉及到大量的数据传输,比如业务系统,很少开的。**
A3:我们今年等保时,测评老师希望我们数据库传输加ssl,不考虑实际场景和效率这些因素,只关注安全……但也理解,很多测评机构的工程师,都是没有实际企业工作经验,要他们结合场景提解决方案,难度有点高了。对于加密,业务内网的交互,很影响性能,业务很难接受的。
另外现在等保的分数机制变了,不符合项3倍扣分,还有大数据扩展的检查标准从国标变成了行标。听测评老师说,审核加内容,也变严格,大部分企业就70-80之间。
**A4:oa之类web应用的还算好推,但生产内网流量,很难推,之前有架构师测试预估,性能损耗较大,投入产出不高。**
对于数据中心,内部感觉不加密也行,但出数据中心的流量要加密,比如终端和服务器之间,可以负载均衡统一做https,如果安全要分析流量,镜像解密后的明文流量,现在有的公司用MPLS VPN,光纤啥的传输,运营商都能抓包。
# 话题3:请教:在内网做微信公众号开发测试,需要在微信公众平台设置访问域名,然后申请微信验证,需要微信来验证我们。现在开发测试环境用IP白名单管控,需要将微信验证的IP加到白名单,如何能知道微信验证的IP段?
A1:如防火墙支持域名策略,不用IP也可以。如使用IP,有以下几种方案:一是直接开全公网访问权限;二是加个上网行为管理,反过来用;三是用公网加个nginx进行转发,收敛测试环境访问权限。nginx只允许部分接口开放对外调用权限。
A2:你的场景,应该是出向访问,微信的服务又是域名的方式提供的,比如小程序的登录,你们要去微信的服务端核验登录态。我们的做法是这样,你可以参考一下:
* 搭建一个squid代理集群,这个集群的服务器,需要有外网ip,然后放通这些服务器的出向anny的访问权限。
* 这个代理上可以配置 出向到xx.weixin.qq.com白名单。可以配置源ip和目标域名。
* 源ip就是你内部的 应用服务器ip。通过这个squid代理服务器来收敛 内部服务器的 出向anny的访问需求。
简单一点,临时开通防火墙的入向anny策略,验证完毕后,把ip记录下来,然后加到访问白名单,或者把整个ip c段加入向白名单即可。其实微信公众号只有固定几个IP,问微信那边就行,全部都来自于那几个IP。
A3:这不就是回调么,腾讯会提供访问IP《公众号、小程序回调出口IP变更通知》。
`