Hadoop安全学习资料整理

=Start=

缘由:

最近在学习大数据安全相关的知识,主要是通过《Hadoop安全:大数据平台隐私保护》这本书,以及网上的一些文章来入门,在此整理一下在这一过程中看到的觉得还不错的资料,方便自己的同时也方便他人。

正文:

参考解答:
Hadoop安全-大数据平台隐私保护
  • 第一部分 安全架构(CIA)
  • 第二部分 验证、授权和审计(AAA)
  • 第三部分 数据安全(静态数据加密、动态数据加密)
大数据安全技术总体视图

(一)大数据平台安全
(二)数据安全
(三)隐私保护

大数据安全面临的威胁与技术
  1. 数据的真实性和完整性校验困难。黑客利用网络攻击向数据采集端注入脏数据,会破坏数据真实性,故意将数据分析的结果引向预设的方向,进而实现操纵分析结果的攻击目的。
  2. 大数据DLP 防护技术:针对使用泄露和存储泄露,通常采用身份认证管理、进程监控、日志分析和安全审计等技术手段,观察和记录操作员对计算机、文件、软件和数据的操作情况,发现、识别、监控计算机中的敏感数据的使用和流动,对敏感数据的违规使用进行警告、阻断等。针对传输泄露,通常采取敏感数据动态识别、动态加密、访问阻断、和数据库防火墙等技术,监控服务器、终端以及网络中动态传输的敏感数据,发现和阻止敏感数据通过聊天工具、网盘、微博、FTP、论坛等方式泄露出去。
  3. 密文计算技术:同态加密和安全多方计算等密文计算方法(SMPC)为解决这个难题提供了一种有效的解决思路。
  • 同态加密提供了一种对加密数据进行处理的功能,对经过同态加密的数据处理得到一个输出,将这一输出进行解密,其结果与统一方法处理未加密的原始数据得到的输出结果一致。
  • 安全多方计算(SecureMulti-PartyComputation, SMPC)是解决一组互不信任的参与方之间保护隐私的协同计算问题,SMPC要确保输入的独立性,计算的正确性,同时不泄露各输入值给参与计算的其他成员。
  1. 数字水印和数据血缘追踪技术
  • 数字水印技术是为了保持对分发后的数据流向追踪,在数据泄露行为发生后,对造成数据泄露的源头可进行回溯。
  • 数据血缘(Lineage,Provenance,Pedigree)亦可译为血统、起源、世系、谱系,是指数据产生的链路,数据血缘记载了对数据处理的整个历史,包括数据的起源和处理这些数据的所有后继过程。
  1. 数据脱敏技术
  • 第一种加密方法,是指标准的加密算法,加密后完全失去业务属性,属于低层次脱敏。算法开销大,适用于机密性要求高、不需要保持业务属性的场景。
  • 第二种基于数据失真的技术,最常用的是随机干扰、乱序等,是不可逆算法,通过这种算法可以生成“看起来很真实的假数据”。适用于群体信息统计或(和)需要保持业务属性的场景。
  • 第三种可逆的置换算法,兼具可逆和保证业务属性的特征,可以通过位置变换、表映射、算法映射等方式实现。
  1. 数据匿名化算法可以实现根据具体情况有条件地发布部分数据,或者数据的部分属性内容,包括差分隐私、K 匿名、L 多样性、T 接近等。
大数据平台安全体系的四个层次
  1. 外围安全;
  2. 数据安全;
  3. 访问安全;
  4. 访问行为监控。

 

参考链接:

=END=

声明: 除非注明,ixyzero.com文章均为原创,转载请以链接形式标明本文地址,谢谢!
https://ixyzero.com/blog/archives/4206.html

《Hadoop安全学习资料整理》上有4条评论

  1. Hadoop in Secure Mode
    https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SecureMode.html

    本文描述如何在安全模式下为Hadoop配置身份验证。当Hadoop被配置为以安全模式运行时,每个Hadoop服务和每个用户都必须通过Kerberos进行身份验证。

    必须正确配置所有服务主机的正向和反向主机查找,以允许服务彼此进行身份验证。主机查找可以使用DNS或/etc/hosts文件进行配置。在尝试以安全模式配置Hadoop服务之前,建议具有Kerberos和DNS的相关知识。

    Hadoop的安全特性包括身份验证、服务级别授权、Web控制台身份验证和数据保密性。

  2. 一篇文章搞懂HDFS权限管理
    https://mp.weixin.qq.com/s/JU2_evATIxFezz6z8UwmEw
    https://paper.tuisec.win/detail/21ea7f2e541d642

    小米的HDFS承载了公司内多个部门几十条业务线的几十PB数据,这些数据有些是安全级别非常高的用户隐私数据,也有被广泛被多个业务线使用的基础数据,不同的业务之间有着复杂的数据依赖。因此,如何管理好这些数据的授权,并尽可能自动化低成本的做好权限管理,是很重要的一部分工作。本文系统的描述了HDFS权限管理体系中与用户关联最紧密的授权相关内容,希望通过本文让大家对权限管理有一个清晰的了解。

    1、HDFS权限管理概述
    2、传统的POSIX权限模型
    3、ACLs概念介绍
    4、ACLs的示例

发表评论

电子邮件地址不会被公开。 必填项已用*标注