DataCon 2019大数据安全分析比赛writeup收集

=Start=

缘由：

收集、整理一下首届DataCon大数据安全分析比赛的writeup和相关资料，学习一下这些获奖选手的解题思路和方法，方便以后要用的时候快速参考。

正文：

参考解答：

DataCon的比赛背景：

为积极探索网络安全人才选拔和培养机制，网络安全相关比赛正如火如荼地开展。然而，目前国内的比赛大多以CTF（夺旗赛）类比赛为主，偏重漏洞挖掘，同质化较为严重，大数据安全分析在却鲜被提及。据相关统计数据显示，与大数据安全分析相关的比赛仅占1%左右，存在极大空白。

为填补这一空白，推动网络安全产业健康发展，由360企业安全集团和清华大学主办、贵州师范大学协办，并且联合北京大学、中科院软件所、复旦大学、西安交通大学、吉林大学等20余所全国知名高校共同举办的DataCon大数据安全分析比赛即将召开，线上报名于3月11日正式开启。

比赛题目方向：

方向1：DNS恶意流量检测

攻防演练过程中发现大数据会议官网无法正常访问、无法注册、发布会议及活动信息。主办单位已采集到大会DNS流量，请从中分析出恶意流量。

方向2：恶意代码行为检测

攻防演练过程中发现会议主办单位部分电脑遭遇恶意代码攻击，并感染会议现场的用于演讲和展区展示的电脑，影响会议运行。主办单位已通过沙箱分析出所有软件的行为数据，并已对其中部分已知恶意样本进行了标注。请分析已标注的训练样本，从测试样本中识别出所有恶意代码及其家族。

方向3：攻击源与攻击者分析

在大数据会议举办期间，重保小组发现了大量针对政府、大型企业网站、数据库发起攻击的可能攻击源。重保小组通过大网上的多维度数据，把与这些攻击源相关的线索全部串联起来。尝试对所有可能的攻击源进行分析。

DataCon排行榜说明：

1、DNS恶意流量检测方向的题目评审以80%客观得分和20%WriteUp得分计算两道题目的总得分并进行排名，其中题目一得分占总分的60%，题目二得分占总分的40%。

2、恶意代码行为检测方向的题目评审以80%客观得分和20%WriteUp得分计算两道题目的总得分并进行排名，其中题目一得分占总分的50%，题目二得分占总分的50%。

3、攻击源与攻击者分析方向的题目评审综合了三道题目的总得分并进行排名，其中题目一得分占总分的20%，题目二得分占总分的40%，题目三得分占总分的40%。得分要点主要考察选手们对日志中攻击的识别的准确性以及识别的攻击种类数；选手们对数据的敏感程度、数据视野以及同源分析能力和思路，能否从多个维度来体系化的对攻击者/组织进行同源分析；以及选手们的数据分析能力，选手们是否通过比赛提供的数据全面的，从更多维度来综合评价一个攻击者/组织的网络攻击能力。

以上是比赛的背景、题目类型的相关说明，下面摘录一些选手的部分解题策略和思路，方便快速查阅和学习：

Q1 DNS恶意流量检测

解题思路：结合专家经验在多个维度做统计特征，滤出超越统计基线3sigma的异常行为，人工检验异常数据确认攻击，然后编写规则滤出该类攻击全部数据包。

通过对数据的初步人工浏览和简单可视化分析发现：
……

据此，我的解题策略为：
原始日志->特征工程->异常检测->人工验证(得到部分答案)->pattern提取->规则匹配->全部答案。

接下来开始思考本题的特征维度。根据我的安全经验，将DNS攻击分为三种建模：
1、密集请求型：例如随机子域名DDoS、反射型DDoS。其特征为QPS高、时序特征强，一般能够可视化观察到波峰。
2、漏洞攻击型：例如针对DNS server的已知漏洞攻击。其特征为数量少、受DNS type影响，适合分类统计。如果批量PoC的话，则特征同1。
3、数据传输型：例如DNS Tunnel、Malware DGA、PoC中的DNS回显、SSRF重绑定等。其特征在于域名文本特征明显、适用于规则匹配。

将DNS日志的Request和Response join到一起，然后做统计特征和文本特征：

DNS请求时序分布
QPS min/max/avg
QPS均值
QPS波动性
连接成功率
DNS响应率
TCP报文占比
请求响应比
单域名平均访问次数
单目标高频访问
多级子域名变化率
DNS type时序分布
DNS type源IP分布
长随机域名
DNS Tunnel特征
部分DNS RCE
心跳包

异常检测
将以上统计特征通过全量数据建立基线，然后在每个特征维度滤出超越3sigma的异常值。

总结：
从结果来看，本题最高效的特征如下：
1、DNS type。
2、src_ip维度的统计分析特征（QPS、域名数量、请求响应数），因为出题人将src_ip的行为做的非常干净，找到了IP就找到了攻击。

分析方法只用了3sigma异常基线一种，人工排序观察Top的异常结果，确认攻击后写规则捞出全部同类攻击。

Q2 DGA域名检测与家族聚类

解题思路：首先通过专家经验做强关联社区发现洗出一部分DGA域名，以此为正样本训练二分类模型识别DGA域名，然后对结果分别进行社区发现、社区聚合、标签传播扩展与降噪，最终得到结果。

主要问题和待提高的地方

结合malware reverse engine进行辅助和分析确认。我们队在比赛过程中针对这道题的现实意义进行了讨论，dga检测与识别，毫无疑问是要进行实时防御，或者说是准实时防御，即dns sinkhole，这就是一个典型的“双百场景”，即“recall 100% + precision 100%”。
dga C&C本质上是黑客的一种隐蔽通信手段，如果不能100% recall识别，漏报一个等于防御失败。反过来，dns域名是一个互联网核心基础设施，如果在骨干网设备上产生拦截误报，影响是非常巨大的。这和Xorddos马的自我繁殖防御类似。从这个角度来说，这道题我们没有拿到100%，等于防御失败了。
在工程化中，这道题最有效的方法是是对dga malware进行监控和逆向分析，通过精确的dga generate function，提前预知未来可能产生的dga域名，从而进行提前防御，当然也要关注dga生成算法与常规域名的碰撞问题。
社区节点间边权重计算方式需要优化：在实际场景中，一台机器可能中多个木马，而且在中马的同时可能正在进行其他的高频业务访问行为，因此只基于简单的共享同一个肉鸡ip的社区边定义很容易引入像msn.com这种误报，对边权重的计算需要引入更多肉鸡-域名行为时序上的特征。

参考链接：

https://github.com/rrenaud/Gibberish-Detector
https://pc.nanog.org/static/published/meetings/NANOG71/1444/20171004_Gong_A_Dga_Odyssey__v1.pdf
https://cloud.tencent.com/developer/article/1142855
https://github.com/360netlab/DGA/tree/master/code
https://www.botconf.eu/wp-content/uploads/2015/12/OK-P06-Plohmann-DGArchive.pdf
https://www.usenix.org/sites/default/files/conference/protected-files/security16_slides_plohmann.pdf
https://github.com/rmariko/security-ids/blob/0696255b7f2600429a3129bdc1b271d3c4db20ae/ids.py
https://github.com/LittleHann/DGA-1/blob/master/dga_algorithms/Conficker.cpp
https://github.com/andrewaeva/DGA/blob/master/dga_algorithms/Matsnu.py
https://github.com/LittleHann/dga-collection/tree/master/dgacollection
https://github.com/360netlab/DGA/tree/master/code
https://github.com/baderj/domain_generation_algorithms/tree/e2ed68a9813b2265652a79291a74b4c23fc13bf0
https://www.cdxy.me/?p=805
https://github.com/shyoshyo/Datacon-9102-DNS
http://momomoxiaoxi.com/数据分析/2019/04/24/datacondns1/
=
Python–实现密码强度检测器
https://blog.csdn.net/xushao_Movens/article/details/53844013
几点基于Web日志的Webshell检测思路
https://my.oschina.net/bluefly/blog/626132
利用机器学习检测HTTP恶意外连流量
https://www.anquanke.com/post/id/107124
Webshell检测
webshell检测－日志分析
http://tanjiti.lofter.com/post/1cc6c85b_10c4e356
Web日志安全分析系统实践
https://xz.aliyun.com/t/2136
Web日志安全分析浅谈
https://xz.aliyun.com/t/1121
安全科普：Waf实现扫描器识别%20彻底抵挡黑客扫描
Detecting Bots in Apache & Nginx Logs
https://tech.marksblogg.com/detect-bots-apache-nginx-logs.html
Struts2 历史RCE漏洞 EXP汇总常用工具流量特征分析
https://xz.aliyun.com/t/4607
大话蜜罐日志分析
http://zhuanlan.51cto.com/art/201702/531001.htm
=
DNS 解析的过程是什么
https://www.zhihu.com/question/23042131
DNS 服务器能遭受到的 DDNS 攻击类型
https://www.cnblogs.com/cobbliu/p/3383135.html
反射 DDOS 攻击防御的一点小想法
https://www.freebuf.com/column/138163.html
测试 DNS 区域递归漏洞以及避免 DNS 放大攻击
https://www.anquanke.com/post/id/83245
DNS 中的协议字段详细定义
https://www.cnblogs.com/549294286/p/5172448.html

=END=

17 6 月, 2019

Docker

KnowledgeBase, Security, Tools, 机器学习

DataCon, DNS, writeup, 安全分析, 异常检测