Hadoop安全学习资料整理

=Start=

缘由：

最近在学习大数据安全相关的知识，主要是通过《Hadoop安全：大数据平台隐私保护》这本书，以及网上的一些文章来入门，在此整理一下在这一过程中看到的觉得还不错的资料，方便自己的同时也方便他人。

正文：

参考解答：

Hadoop安全-大数据平台隐私保护

第一部分　安全架构（CIA）
第二部分　验证、授权和审计（AAA）
第三部分　数据安全（静态数据加密、动态数据加密）

大数据安全技术总体视图

（一）大数据平台安全
（二）数据安全
（三）隐私保护

大数据安全面临的威胁与技术

数据的真实性和完整性校验困难。黑客利用网络攻击向数据采集端注入脏数据，会破坏数据真实性，故意将数据分析的结果引向预设的方向，进而实现操纵分析结果的攻击目的。
大数据DLP 防护技术：针对使用泄露和存储泄露，通常采用身份认证管理、进程监控、日志分析和安全审计等技术手段，观察和记录操作员对计算机、文件、软件和数据的操作情况，发现、识别、监控计算机中的敏感数据的使用和流动，对敏感数据的违规使用进行警告、阻断等。针对传输泄露，通常采取敏感数据动态识别、动态加密、访问阻断、和数据库防火墙等技术，监控服务器、终端以及网络中动态传输的敏感数据，发现和阻止敏感数据通过聊天工具、网盘、微博、FTP、论坛等方式泄露出去。
密文计算技术：同态加密和安全多方计算等密文计算方法（SMPC）为解决这个难题提供了一种有效的解决思路。

同态加密提供了一种对加密数据进行处理的功能，对经过同态加密的数据处理得到一个输出，将这一输出进行解密，其结果与统一方法处理未加密的原始数据得到的输出结果一致。
安全多方计算（SecureMulti-PartyComputation, SMPC）是解决一组互不信任的参与方之间保护隐私的协同计算问题，SMPC要确保输入的独立性，计算的正确性，同时不泄露各输入值给参与计算的其他成员。

数字水印和数据血缘追踪技术

数字水印技术是为了保持对分发后的数据流向追踪，在数据泄露行为发生后，对造成数据泄露的源头可进行回溯。
数据血缘(Lineage，Provenance，Pedigree)亦可译为血统、起源、世系、谱系，是指数据产生的链路，数据血缘记载了对数据处理的整个历史，包括数据的起源和处理这些数据的所有后继过程。

数据脱敏技术

第一种加密方法，是指标准的加密算法，加密后完全失去业务属性，属于低层次脱敏。算法开销大，适用于机密性要求高、不需要保持业务属性的场景。
第二种基于数据失真的技术，最常用的是随机干扰、乱序等，是不可逆算法，通过这种算法可以生成“看起来很真实的假数据”。适用于群体信息统计或（和）需要保持业务属性的场景。
第三种可逆的置换算法，兼具可逆和保证业务属性的特征，可以通过位置变换、表映射、算法映射等方式实现。

数据匿名化算法可以实现根据具体情况有条件地发布部分数据，或者数据的部分属性内容，包括差分隐私、K 匿名、L 多样性、T 接近等。

大数据平台安全体系的四个层次

外围安全；
数据安全；
访问安全；
访问行为监控。

参考链接：

=END=

11 12 月, 2018

Docker

KnowledgeBase, Security, Tools

Hadoop, Kerberos, 数据安全

《 “Hadoop安全学习资料整理” 》有 11 条评论

hi说道：

2018-12-17 10:56

Hadoop in Secure Mode
https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SecureMode.html
`
本文描述如何在安全模式下为Hadoop配置身份验证。当Hadoop被配置为以安全模式运行时，每个Hadoop服务和每个用户都必须通过Kerberos进行身份验证。

必须正确配置所有服务主机的正向和反向主机查找，以允许服务彼此进行身份验证。主机查找可以使用DNS或/etc/hosts文件进行配置。在尝试以安全模式配置Hadoop服务之前，建议具有Kerberos和DNS的相关知识。

Hadoop的安全特性包括身份验证、服务级别授权、Web控制台身份验证和数据保密性。
`

回复
hi说道：

2018-12-25 17:28

一篇文章搞懂HDFS权限管理
https://mp.weixin.qq.com/s/JU2_evATIxFezz6z8UwmEw
https://paper.tuisec.win/detail/21ea7f2e541d642
`
小米的HDFS承载了公司内多个部门几十条业务线的几十PB数据，这些数据有些是安全级别非常高的用户隐私数据，也有被广泛被多个业务线使用的基础数据，不同的业务之间有着复杂的数据依赖。因此，如何管理好这些数据的授权，并尽可能自动化低成本的做好权限管理，是很重要的一部分工作。本文系统的描述了HDFS权限管理体系中与用户关联最紧密的授权相关内容，希望通过本文让大家对权限管理有一个清晰的了解。

1、HDFS权限管理概述
2、传统的POSIX权限模型
3、ACLs概念介绍
4、ACLs的示例
`

回复
hi说道：

2018-12-25 17:37

HDFS Permissions Guide
https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsPermissionsGuide.html

Enabling HDFS Extended ACLs
https://www.cloudera.com/documentation/enterprise/5-3-x/topics/cdh_sg_hdfs_ext_acls.html

HDFS ACLs: Fine-Grained Permissions for HDFS Files in Hadoop
https://hortonworks.com/blog/hdfs-acls-fine-grained-permissions-hdfs-files-hadoop/

回复
hi说道：

2019-02-15 20:10

从生产安全体系视角看数据安全
https://mp.weixin.qq.com/s/OS4iCYjqG7fW2ti9NN9f2w

回复
hi说道：

2020-08-25 11:27

Kerberos 和 Apache Sentry 干货实践（上）
https://www.infoq.cn/article/wfTiNgzspOxpSZcl2t8E

Kerberos 和 Apache Sentry 干货实践（下）
https://www.infoq.cn/article/A6vvRKIVEf8Gm9D7OU8S

回复
abc说道：

2020-12-29 14:48

滴滴大数据安全权限实践
https://mp.weixin.qq.com/s/-0PGwGZ_fcssP0SxGe04xg
`
# 用户认证 – 自研账号密码机制
1. 客户端
1.1 普通客户端
1.2 Beeline/JDBC

2. 服务端
2.1 Namenode 验证
2.2 Hive Server 验证

3. 用户管理模块

# 权限认证 – 列级别鉴权体系
说起滴滴的大数据权限机制，我们其实是经历了从0到1，又从1到2的过程，最早我们是基于 Hive SQL Standard-based+ HDFS UGO 机制构建了一套基于 hive 表粒度的权限体系，但是随着业务的发展和数据安全的诉求，我们在2018年对权限体系进行了重构，基于 Ranger 建设了基于列级别鉴权的数据权限体系，下面将具体说下，我会先讲下滴滴的数据权限的模型，以及我们是怎么实现的。
`

回复
hi说道：

2021-09-12 14:59

干货 | 携程数据血缘构建及应用
https://mp.weixin.qq.com/s/LGK3YPZCe6oPTf48QaAIqA
`
Data lineage includes the data origin, what happens to it and where it moves over time. Data lineage gives visibility while greatly simplifying the ability to trace errors back to the root cause in a data analytics process. ──百科Data lineage

大数据时代，数据的来源极其广泛，各种类型的数据在快速产生，数据也是爆发性增长。从数据的产生，通过加工融合流转产生新的数据，到最终消亡，数据之间的关联关系可以称之为数据血缘关系。

数据血缘是元数据管理、数据治理、数据质量的重要一环，追踪数据的来源、处理、出处，对数据价值评估提供依据，描述源数据流程、表、报表、即席查询之间的流向关系，表与表的依赖关系、表与离线ETL任务，调度平台，计算引擎之间的依赖关系。数据仓库是构建在Hive之上，而Hive的原始数据往往来自于生产DB，也会把计算结果导出到外部存储，异构数据源的表之间是有血缘关系的。

数据血缘用途：
追踪数据溯源：当数据发生异常，帮助追踪到异常发生的原因；影响面分析，追踪数据的来源，追踪数据处理过程。
评估数据价值：从数据受众、更新量级、更新频次等几个方面给数据价值的评估提供依据。
生命周期：直观地得到数据整个生命周期，为数据治理提供依据。
安全管控：对源头打上敏感等级标签后，传递敏感等级标签到下游。

本文介绍携程数据血缘如何构建及应用场景。第一版T+1构建Hive引擎的表级别的血缘关系，第二版近实时构建Hive，Spark，Presto多个查询引擎和DataX传输工具的字段级别血缘关系。

二、构建血缘的方案
2.1 收集方式
方案一：只收集SQL，事后分析。
方案二：运行时分析SQL并收集。

2.2 开源方案
Apache Atlas
Linkedin DataHub

三、携程方案
携程采用了方案二，运行时分析SQL并收集分析结果到Kafka。由于开源方案在现阶段不满足需求，则自行开发。

四、第一个版本-表级别血缘关系
4.1 处理流程
4.2 效果
4.3 痛点
随着计算引擎的增加，业务的增长，表级别的血缘关系已经不满足需求。
覆盖面不足，缺少Spark ThriftServer , Presto引擎，缺少即席查询平台，报表平台等。
关系不够实时，期望写入表后可以快速查询到关系，用户可以直观查看输入和输出，数据质量系统，调度系统可以根据任务ID查询到输出表，对表执行质量校验任务。
图数据库Neo4j社区版为单机版本，存储数量有限，稳定性欠佳，当时使用的版本较低，对边不能使用索引(3.5支持)，这使得想从关系搜索到关联的上下游较为麻烦。

五、第二版本-字段级别血缘关系
5.1 传输工具DataX
5.2 计算引擎
5.3 图数据库JanusGraph
5.4 覆盖范围
5.5 局限
5.6 效果

六、实际应用场景
6.1 数据治理
6.2 元数据管理
6.3 调度系统
6.4 敏感等级标签
当源头的数据来自生产DB时，生产DB有些列的标签已打上了敏感等级，通过血缘关系，下游的表可以继承敏感等级，自动打上敏感标签。

七、总结
以上描述了携程如何构建表和字段级别的血缘关系，及在实际应用的场景。

随着业务需求和数据的增长，数据的加工流程越来越复杂，构建一套数据血缘，可以轻松查询到数据之间的关系，进行表和字段级的血缘追溯，在元数据管理，数据治理，数据质量上承担重要一环。
`

回复
abc说道：

2021-12-30 11:21

大数据平台安全研究报告(2021 年 01 月)
http://www.caict.ac.cn/kxyj/qwfb/ztbg/202102/P020210201518402039065.pdf
`
一、大数据平台概况
(一) 大数据产业蓬勃发展
(二) 大数据平台应用模式多样化演进

二、大数据平台安全现状
(一) 组件配置类安全隐患
(二) 组件安全漏洞
(三) 组件安全隐患统计分析

三、大数据平台安全问题分析
(一) 基于Hadoop的开源大数据平台安全配置复杂度较高
(二) 安全漏洞修复对平台运行影响较大
(三) 大数据平台建设过程中安全投入不足
(四) 大数据平台重视边界防护忽视内部安全
(五) 企业大数据平台安全管理制度滞后
(六) 企业技术人员安全能力不足

四、大数据平台安全解决方案建议
(一) 加强大数据平台安全基线管理
(二) 对大数据平台安全进行整体规划
(三) 大数据平台边界防护与内部安全建设并重
(四) 建立完善的大数据平台安全制度流程
(五) 增强企业技术人员安全能力

五、大数据平台安全未来发展建议
(一) 加强企业大数据平台安全防护工作的监管
(二) 强化大数据平台安全防护技术研究
(三) 推动大数据平台安全产品和服务市场发展
(四) 构建大数据平台安全生态
`

回复
abc说道：

2021-12-30 11:38

大数据安全白皮书(2018 年 07 月)
http://www.caict.ac.cn/kxyj/qwfb/bps/201807/P020180712523226672500.pdf
`
一、对大数据安全的认识和思考
（一）大数据已经对经济运行机制、社会生活方式和国家治理能力产生深刻影响，需要从“大安全”的视角认识和解决大数据安全问题
（二）大数据正逐渐演变为新一代基础性支撑技术，大数据平台的自身安全将成为大数据与实体经济融合领域安全的重要影响因素
（三）大数据时代，数据在流动过程中实现价值最大化，需要重构以数据为中心、适应数据动态跨界流动的安全防护体系
（四）大数据推动数字经济新业态新模式蓬勃发展，广大民众却面临享受便捷化泛在化信息服务与保护个人信息权利之间的两难抉择

二、大数据安全技术总体视图
（一）大数据平台安全
（二）数据安全
（三）隐私保护

三、大数据安全面临的技术问题和挑战
（一）平台安全问题与挑战
（二）数据安全问题和挑战
（三）个人隐私安全挑战

四、大数据安全技术发展情况
（一）大数据平台安全技术
（二）数据安全技术
（三）个人隐私保护技术
（四）大数据安全技术发展现状总结

五、大数据安全技术未来发展建议
（一）需要站在总体安全观的高度，构建大数据安全综合防御体系
（二）从攻防两方面入手，强化大数据平台安全保护
（三）以关键环节和关键技术为突破点，完善数据安全技术体系
（四）加强隐私保护核心技术产业化投入，兼顾数据利用和隐私保护双重需求
（五）重视大数据安全评测技术的研发，构建第三方安全检测评估体系
`

回复
abc说道：

2022-06-27 17:09

介绍一个数据血缘的项目 OpenLineage
https://mp.weixin.qq.com/s/FcE5PkTnK-iI0X5DZMqKFg
`
OpenLineage 可以翻译成开源血缘。按照这个项目的发起者 Julien Le Dem 的说法，“数据血缘需要遵循开源社区贡献者商定的标准，以保证其各自解决方案生成的元数据的兼容性和一致性。”
Data lineage needs to follow a standard agreed upon by contributors to the open source community to guarantee the compatibility and consistency of the metadata produced by their respective solutions.

它回答的问题是：“谁生产数据？它是如何转变的？谁在使用它？数据血缘是 DataOps 的支柱，它提供了对组织内数据旅程中系统和数据集交互的可见性。”
Data lineage is the backbone of DataOps, providing visibility into the interaction of systems and datasets across the journey of data within an organization.

也给出了一个可用的数据血缘应该满足什么样的要求。
* 它不仅需要捕获正在生成的数据集之间的依赖关系，还需要捕获生成和转换它们的业务逻辑
* 这些数据集和程序中的每一个都需要有一种统一命名的形式，以便可以轻松识别并跨不同域统一访问
* 这些数据集和程序中的所有变化都需要以细粒度和自动方式进行跟踪和版本控制，以更好地了解整个生态系统随时间的演变
* 考虑到它需要支持的各种用例，描述这些数据集和程序的元数据需要灵活且可扩展

它想要解决的3个核心问题：
* 谁生产数据？
* 它是如何转变的？
* 谁在使用它？
`
https://datakin.com/introducing-openlineage/
https://github.com/OpenLineage/OpenLineage

回复
abc说道：

2023-05-04 13:02

货拉拉大数据安全体系建设实践
https://mp.weixin.qq.com/s/V41CSqBDRN2UIt-MFdTGeg
`
为什么要做大数据安全？
难点与挑战
大数据安全体系建设思路
大数据安全体系概览
数据安全规范-分类分级
库表安全管理规范
报表安全管理规范
高敏感数据存储和使用规范
数仓库表安全能力
数据报表安全能力
高敏感数据加密和脱敏
数据灾备能力
基础设施安全能力
大数据安全治理
总结
一些思考
未来展望

==
货拉拉大数据在规划架构的演进时，主要聚焦的目标是：业务支撑、稳定、安全、控本、增效，来打造基础扎实、能力强大的大数据基础设施和平台化服务，支撑数据价值和数据赋能，助力公司业务高质量增长。

数据安全同样离不开完善的管理体系建设。包括：设立数据安全管理委员会，建立自上而下的覆盖决策、管理、执行、监督四个层面的安全组织体系，明确数据安全的组织架构和专业岗位设置。建立统一的、分类分级的数据安全管理制度体系，明确各部门和相关岗位的数据安全职责，规范工作流程。建立覆盖人员职业生命周期的人员安全管理机制，包括背景调查、保密协议、安全培训、权限管理、合同终止权限回收等。建立完善的第三方安全管理机制，包括审查评估、合同约束、保密协议等等。
`

回复

ASPIRE

Hadoop安全学习资料整理

缘由：

正文：

参考解答：

Hadoop安全-大数据平台隐私保护

大数据安全技术总体视图

大数据安全面临的威胁与技术

大数据平台安全体系的四个层次

参考链接：

《 “Hadoop安全学习资料整理” 》有 11 条评论

发表回复取消回复

Hadoop安全学习资料整理

缘由：

正文：

参考解答：

Hadoop安全-大数据平台隐私保护

大数据安全技术总体视图

大数据安全面临的威胁与技术

大数据平台安全体系的四个层次

参考链接：

《 “Hadoop安全学习资料整理” 》 有 11 条评论

发表回复 取消回复

《 “Hadoop安全学习资料整理” 》有 11 条评论

发表回复取消回复