[translate]实现信息分类以增强数据治理和保护

=Start=

缘由:

此篇文章是对Gartner文档「Implement Information Classification to Enhance Data Governance and Protection」做的一些翻译,以加强我在数据安全方向上的学习和理解。

正文:

信息分类是支持数据治理和安全实践的强大工具。实施信息分类计划需要集成适当的程序和技术控制,并转换组织行为以确保数据隐私和安全。

参考解答:
重要发现(Key Findings)
信息分类程序是支持广泛的数据治理和安全实践的强大工具。识别和分类数据有助于手工和自动处理企业数据,可以转换为降低存储成本,甚至可以突出访问控制问题。
信息分类程序的不成熟在组织认为他们应该做什么、他们认为他们需要什么程序和技术控制以及供应商提供什么之间造成了系统的脱节。供应商空间是不平衡和不一致的,这导致组织使用“挑选和选择”的方法拼凑出满足他们当前需求的解决方案,而不考虑长期目标。
成功地定位和分类数据的组织似乎由于害怕进入补救阶段和删除可消耗的遗留数据而陷于瘫痪。
建议(Recommendations)
确定短期和长期目标。实现“轻松取胜”,例如创建策略并开始应用分类标签,并根据实际的分类方案寻求合并更全面的编程和技术控制。
开发一个全面的信息分类程序,授权最终用户对他们工作的数据进行定期分类,并将分类与处理指南、程序和技术控制相关联。
确保信息分类程序在继续创建数据时能够主动地对数据进行分类和重新分类,同时也能够追溯处理遗留缓存。
目录(Table of Contents)
分析(Analysis)
基础(The Basics)
清晰的词汇(Clarity of Vocabulary)
信息分类是如何工作的(How Information Classification Works)
开发一个程序(Developing a Program)
删除的动机(Motivation to Delete)
成功程序的要素(Elements of a Successful Program)
追溯性和主动性的处理数据(Address Data Retroactively and Proactively)
需要管理层和最终用户的参与(Executive Buy-In and End-User Involvement Required)
理解短期和长期目标(Understanding Short-Term and Long-Term Goals)
从定位到补救(Moving from Locate to Remediate)
信息分类的新范式(A New Paradigm for Information Classification)
程序崩溃(Program Breakdown)
信息分类框架(Information Classification Framework)
扩展框架(Expanding the Framework)
将隐私考虑在内(Incorporating Privacy)
支持标识和访问管理(Supporting Identity and Access Management)
供应商情况(The Vendor Landscape)
功能和特性(Features and Functionality)
面临的挑战(Ongoing Challenges)
度量和成功度量(Metrics and Measuring Success)
重新分类(Reclassification)
移动化和云化(Mobile and Cloud)
优势(Strengths)
弱点(Weaknesses)
指南(Guidance)
Gartner推荐阅读(Gartner Recommended Reading)
# 分析
信息分类,也称为数据分类,是对一项信息进行分析,以确定它属于预定义的一组类别中的哪一个。传统上,这涉及到对数据应用某种标签。然后,可以将标签与各种后续过程或需求相关联,例如如何处理数据、谁可以访问数据或应该存储数据的位置。
信息分类本身通过对数据的识别和分类提供了价值。然而,它的用处可以远远超出这一范围。有效的数据治理基于组织对整个企业中数据的类型、价值和敏感性的认识,以及对其适当的访问、处理和存储的认识。可以利用信息分类来提供这种认识,并支持许多其他企业范围内的安全性、合规性和风险缓解计划。信息分类对安全程序的价值将在”Information Classification: An Essential Security Thing You’re (Still) Not Doing”中详细讨论。
这个评估探讨了信息分类的两个主要子组件:程序和工具。本文的重点是引导组织认为其程序是成功的编程元素和可用的技术工具,包括对将自己推销为信息分类供应商的供应商的高级讨论。事实上,许多信息分类供应商是具有内容意识的数据丢失预防(DLP)供应商。本文档没有深入介绍DLP的工作原理或其他工具,如加密、数据屏蔽或数据令牌化,这些工具在数据被分类为需要这种级别的处理后即可实现。“企业内容感知的DLP体系结构和操作实践”进一步解释了DLP。在“选择数据屏蔽方法和体系结构”中提供了关于数据屏蔽的指导。
# 基本原则(The Basics)
信息分类一直是令人沮丧的根源,这是有原因的。信息分类的概念缺乏明确性、词汇的内聚性和规范性。这个领域的供应商和工具不仅在它们的特性和功能上有很大的不同,而且在它们试图解决的问题上也有很大的不同。
然而,并非所有的希望都破灭了。信息分类可以是简单的,也可以是复杂的,这取决于组织的意愿。事实上,构建一个非常成功的分类程序有很大的灵活性。从程序的角度来看,需要一些关键元素,但是是否实现工具和技术控件提供了丰富的选项菜单。
信息分类听起来非常简单,并不是一个新的或新颖的概念。从编程的角度来看,信息分类空间并没有发生很大的演变。一些组织和政府已经建立了分类方案、政策和方案,尽管有时这些方案正在逐渐消失。但很少有人知道如何将建立信息分类程序与教育用户基础和创建合规文化联系起来。
# 清晰的词汇(Clarity of Vocabulary)
数据分类 或 信息分类
标签 或 标记
# 信息分类是如何起作用的
可以手工创建信息分类策略、终端用户意识和培训,并将程序与处理实践连接起来。然而,实现一个(或多个)工具可以极大地增强信息分类程序。信息分类工具的一些功能包括:
  • 贴标签:支持终端用户贴标签工作,其功能可以直接嵌入电子邮件、文档或文件,尤其是Microsoft Office。
  • 扫描:扫描非结构化和结构化数据存储库,以定位受监管的数据,并自动对数据进行分类和应用技术控制。
  • 处理:读取手动应用的标签或标识特定的数据类型,并限制使用或传输。
# 创建一个程序
创建信息分类程序的动力可以从各种来源获得。在研究这篇文档时,Gartner了解到组织发起信息分类计划的原因包括:
  • 识别和定位敏感数据,特别是在数据泄漏之后
  • 提高组织对数据处理需求的认识
  • 消除不必要的遗留数据缓存,以最小化存储成本
  • 了解谁在访问敏感数据
  • 遵守出口管制、HIPAA、国际武器贩运条例(ITAR)和支付卡行业(PCI)标准等法律和法规要求和限制
  • 保护知识产权
信息分类方案也由组织内的不同单位驱动,包括:
  • 信息安全
  • 合规
  • 法律
  • 风险
  • IT
# 指导方针
建立一个信息分类程序需要时间和耐心。鉴于企业文化、高管支持和预算,企业将需要了解自己的目标,以及如何最好地实现这些目标。在开发和实现信息分类程序时,有一些关键的事情需要记住:
  • 创建一个信息分类策略:该策略构成了整个信息分类程序的基础。为组织的分类方案确定适当的层数。确保政策得到所有需要的缔约方的正式批准。
  • 广泛地绘制信息分类路线图:要使信息分类计划起步,不要关注细节,而是要非常广泛地理解短期和长期计划。路线图可以而且应该是有抱负的,详细说明程序的哪些部分将是手工的,而哪些部分将是自动化的。具体的编程和技术控制不需要详细说明,但是应该包括使用一个或两个控件的意图。确保路线图有追溯组件来识别和分类遗留数据,以及在创建时有主动组件来分类数据。
  • 将要识别和分类的数据按优先级排序:某些类型的数据会比其他类型的数据带来更多的风险。一些终端用户会比其他用户带来更多的风险。实施一个或多个试点项目,重点关注已知的高风险数据或访问。这可以导致局部的合规性,同时这也可以动员其他领域和业务单位效仿。
  • 识别谁是你的支持者:拥有强有力的合作伙伴是至关重要的。通常,Gartner建议将构建团队作为理解关键涉众的起点。成功地进行信息分类,与其说是建立一个团队,不如说是找到支持这一事业的啦啦队长。这些啦啦队员将帮助支持信息分类工作,自愿让他们的部门尽早参与项目,并向最终用户传达项目的价值。
  • 绝对地、积极地做任何有必要让最终用户参与的事情:最终用户是有效信息分类计划的参与者。他们定期处理数据,并了解如何在业务流程中使用数据。即使他们不完全理解他们的数据属于哪个分类层,他们也知道企业中存在哪些数据。有许多方法可以让终端用户参与进来,但程序所有者必须找到他们,并对他们进行教育,无论是通过电子邮件爆炸、企业内部网上的通知,还是在走廊和餐厅里设置带有基于信息分类的游戏和奖品的桌子。
  • 加快程序的推出:不要试图同时追溯和预先识别和分类数据。不要试图将其他计划和计划与信息分类结合起来,而是要利用信息分类来实现其他目标,例如记录保留。一家生物技术公司计划同时实施标签和DLP解决方案。在发布之前,他们放弃了DLP组件,因为他们发现它太重了。他们发现,他们“没有资源或标准化的环境来推出像DLP解决方案那样具有侵入性的东西”。信息分类程序的其他部分可以稍后合并。
  • 纠正可消耗的过时和遗留数据:一旦追溯性地识别和分类了数据,工作就没有完成。必须处理过时的和遗留的数据,特别是如果这些数据是敏感数据,它们的存在可能会带来风险。尽可能有效地从识别过渡到补救。

Gartner建议的信息分类指导方针,总结一下,就是:

1、(信息分类)政策先行,因为这是基础(确定信息分类方案的大体框架和指导方针);
2、(在深入理解短期和长期目标的基础上)绘制路线图,不必关注细节,但大方向和里程碑要明确;
3、(对要实现分类的数据)按优先级排序,先抓已知的重点,一方面是可以快速有产出,另一方面是可以起到模板和示范作用;
4、(识别并拥有)强有力的合作伙伴,找到你的合作伙伴/支持者,让他们帮忙在他们周围进行动员和宣传;
5、(一定要积极地)影响最终用户,因为他们是有效信息分类计划的参与者,他们清楚企业中存在哪些数据,但前提是找到和识别他们;
6、(不要期望一步到位),而应该加快程序功能的迭代;
7、(逐步的从识别敏感数据过渡到纠正和处理)有些遗留的敏感数据,它们仅仅是存在就可能导致风险,需要不断的纠正和处理。
参考链接:

=END=

声明: 除非注明,ixyzero.com文章均为原创,转载请以链接形式标明本文地址,谢谢!
https://ixyzero.com/blog/archives/4266.html

《[translate]实现信息分类以增强数据治理和保护》上的一个想法

  1. 数据资产治理-元数据采集那点事
    https://mp.weixin.qq.com/s/JqKIPBu9zLCq9ziczaTrWw
    `
    一、介绍
    数据资产治理的前提要有数据。它要求数据类型全、量大,并尽可能多地覆盖数据流转的各个环节。元数据采集就变得尤其重要,它是数据资产治理的核心底座。

    在早期的采集系统,我们主要面向数仓,通过“API直连方式”采集Hive/Mysql表的元数据。随着业务的快速发展,数据运营、成本治理的需求越来越强烈。元数据需要覆盖到数据全链路,包括离线计算平台、实时计算平台、内部工具,任务元数据等。采集元数据的过程中,我们遇到以下困难:
    * 数据类别多
    需要采集组件的基础元数据、趋势数据、资源数据、任务数据和血缘数据。

    * 平台组件多
    大数据平台组件:Hive/Hbase/Kafka/Druid/Flume/Flink/Presto,内部工具:BI报表系统/指标库/OneService等。

    * 采集周期长
    接入新的数据类型周期长,需要经过需求评审、开发、测试、联调、数据核对、上线。

    * 接入效率低,采集稳定性
    接入每种数据类型需要和业务方对接,效率不高,采集过程出现异常中断,不能及时感知到。

    本文主要从元数据的含义、提取、采集、监控告警几个方面,介绍我们做的一些事情。

    二、元数据
    2.1 什么是元数据
    2.2 采集了哪些元数据

    * 基础元数据
    表名称、备注、字段列表、责任人、业务域、表所在集群、项目等信息。

    * 趋势数据
    表的大小、行数、文件数、分区数、任务调度时长、产出时间等信息。

    * 资源数据
    集群的吞吐量、QPS、调度任务消耗Cpu、内存大小等信息。

    * 血缘数据
    表/字段级别的上下游依赖关系、任务的输入输出表依赖关系。

    * 任务数据
    离线/实时计算任务的名称、责任人、deadline告警时间、脚本、任务配置等信息。

    三、元数据提取
    3.1 离线平台
    3.2 实时平台
    3.3 内部工具
    3.4 任务元数据

    四、数据采集
    4.1 采集方式
    4.2 采集SDK设计
    4.3 触发采集
    4.4 数据存储,更新

    五、监控预警
    5.1 采集链路监控告警
    5.1.1 接口监控
    5.1.2 采集过程监控
    5.1.3 kafka消息积压告警
    5.2 结果数据比对
    5.3 项目迭代机制,采集问题收敛

    六、总结和展望
    6.1 总结
    6.2 展望
    数据采集的过程中我们也遇到很多的问题,在后续的工作中需要不断的优化和功能迭代,包括但不限于:
    * 自动化采集
    目前接入新的数据类型,需要和接入方确认数据上报格式,编写数据适配器。后续考虑自动化采集,减少人工介入。接入工单系统,接入方发起工单申请,填报基础的元数据信息,管理员审批后,能够根据工单信息自动生成数据适配器,完成数据的上报。
    * 采集任务管理
    目前接入了各种组件的元数据,采集任务数25+,新增采集任务或任务下线,需要走阿波罗配置系统。采集任务管理、搜索、任务启停需求越来越强烈。
    * 提升元数据质量
    接入的元数据类型、元数据服务越来越多,对元数据的质量提出了更高的要求。如何保障数据的准确性、可用性,是后续重点要考虑的事情。·
    * 支持业务元数据接入
    目前主要接入了数据平台组件的元数据,业务方元数据占比较小,后续考虑支持快速接入业务数据,支持非结构化数据的采集和存储。
    `

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注