CISSP官方学习指南第7版#第18章


=Start=

缘由:

备考CISSP,学习、整理在看《CISSP官方学习指南(第7版)》时的一些知识点,方便以后快速复习。

正文:

参考解答:
第18章 灾难恢复计划

本章中覆盖的CISSP考试大纲包含:
安全评估与测试
C.收集安全过程数据(例如,管理和运营控制)
C.5 培训和意识
C.6 灾难恢复与业务连续性

安全运营
K.实施恢复策略
K.1 备份存储策略(例如,异地存储、电子传送、磁带循环)
K.2 站点恢复策略
K.3 多站点(例如,操作冗余系统)
K.4 系统恢复能力、高可用性、服务质量和容错能力
L.执行灾难恢复过程
L.1 响应
L.2 人员
L.3 通信
L.4 评估
L.5 恢复
L.6培训和意识
M.测试灾难恢复计划
  M.1 通读测试
  M.2 结构化演练
  M.3 模拟测试
  M.4 并行测试
  M.5 完全中断测试


18.1 灾难的本质

灾难恢复计划围绕组织正常运营被中断,为混乱的事件带来正常的工作秩序。灾难恢复计划理所当然要在高度紧张和冷静的头脑可能不容易占优势时得以执行。对可能发现有必要实施DRP措施的环境进行描述,如咫风破坏了主运营设施、火灾烧毁了主运营中心、恐怖行为阻碍进入城市的主要区域。停止、阻止或中断组织执行其工作任务的任何事件都被视为灾难。一旦IT无法支持关键任务进程,就需要通过DRP来管理还原和恢复过程。
灾难恢复计划应该被配置为几乎是自动执行的。DRP还应当被设计为在灾难期间尽可能排除决策活动。必要的人员应该就灾难发生时他们的责任和任务进行良好培训,并且了解他们需要采取的措施,从而尽可能快地使组织恢复运营。我们将从分析可能影响组织的一些灾难开始,进而对它们所造成的特殊威胁进行分析。前面在第3章中已经提到过其中很多威胁,但是我们将在本章对它们进行更深入研究。
为了针对自然和非自然灾难进行计划编制,必须首先理解灾难的各种形式,下面将详细讨论这个问题。

18.1.1 自然灾难

自然灾难反映了我们生存环境的狂怒(由于地球表面或大气变化超出人类的控制,因此会出现强烈的变化)。在某些情况下(如用风),科学家己经开发出了成熟的预报技术,在灾难发生之前能够提供充分的警示。其他某些情况(如地震)则可能会在瞬间带来不可预测的破坏。灾难恢复计划应当针对灾难的两种类型提供相应的机制,这两种机制可以是响应力的逐渐形成,也可以作为对突然出现的紧急危机的立即响应。

1.地震
地震由大陆板块的移动引发,可能会在全世界的任何地方发生,而且没有预警。然而它们更有可能在己知的断层上发生,这样的断层在世界的很多地方都存在。

2.洪水
每年在全球的任何地方都可能随时发生洪水灾害。尽管理论上洪水灾害可能会在全球各地发生,但是在某些特定的区域发生的可能性更高。

3.暴风雨
暴风雨有很多形式,并且会对业务带来很多不同的风险。

4.火灾
火灾的发生可能会有很多原因,既可能是人为的,又可能是自然的,但是这两种形式的火灾所带来的危害是相等的。在BCP和DRP处理过程中,应当评估火灾带来的风险,并且采取最基本的措施来缓解这些风险,在关键性设施发生灾难性火灾后恢复业务。

5.其他的地区性事件
世界上某些地区具有地区性的自然灾难。在BCP/DRP处理过程中,评估团队应当分析组织的所有运营地区,并且估计这些类型的事件可能会对业务造成的影响。

18.1.2 人为灾难

人类几个世纪以来所建立的先进文明变得越来越依靠技术、逻辑和自然系统之间复杂的相互作用。形成的成熟社会的复杂交流还可能造成很多潜在的、有意和无意人为灾难的脆弱性。在这一节中,我们将研究几个较为常见的灾难,从而帮助你在准备业务连续性计划和灾难恢复计划时对企业的脆弱性进行分析。

1.火灾
2.恐怖行为
3.爆炸/煤气泄漏
4.电力中断

18.1.3 其他公共设施和基础设施故障

当计划编制者考虑公共设施停止运转可能对企业造成的影响时,他们自然首先会想到电力中断造成的影响。但是,还应该考虑其他的公共设施。是否有依赖于水、污水管、天然气或其他公共设施的关键业务系统呢?当然还要考虑地区性的基础设施,如公路、机场或铁路。这些系统中的任何一个都可能出现故障,而这些故障与本章中提到的天气或其他条件并不相关。很多业务依赖于这些基础设施中的一个或多个来调动人员或搬移物品。故障可能会使你的业务持续运行能力瘫痪。

1.硬件/软件故障
不管喜欢不喜欢,计算机系统都会出现故障。硬件组件可能受到磨损且无法继续运行或受到物理损坏。软件系统含有bug,或者被给予不正确/意想不到的操作指令。因此,BCPRP团队必须在系统中提供足够的冗余度。

2.罢工/示威抗议
在设计业务连续性计划和灾难恢复计划时,不要忘记在紧急事件计划中指出人为因素的重要性。
经常被忽视的一种人为灾难形式可能是罢工或其他劳工危机。如果大部分员工在同一时间罢工,那么将会对业务产生什么影响?能承受在某个区域没有固定的专职员工工作的时间有多长?BCP和DRP团队应该解决这些问题,从而提供在劳工危机出现时的备选计划。

3.盗窃/故意破坏
在前面的内容中,我们看到了恐怖行为给组织带来的威胁。偷窃、故意破坏与恐怖行为具有相同点,只是规模小得多。

18.2 理解系统恢复和容错能力

作为CIA安全三要素(机密性、完整性和可用性)的核心目标之一,增加系统应变能力和容错能力的技术控制会直接影响到可用性。系统恢复和容错能力的主要目标是消除单点故障。

  • 单点故障可以发生在任何组件上,能够导致整个系统崩愤。如果计算机的单一磁盘上含有数据,那么该磁盘发生故障就会导致计算机崩溃,所以磁盘是故障发生的单点。如果基于数据库的网站有多台Web服务器,而这些服务器又是由单一数据库服务器支持的,那么该数据库服务器就是故障发生的单点。
  • 容错能力是指系统在发生故障的情况下仍然继续运行的能力。容错能力是通过添加冗余组件实现的,如廉价冗余磁盘阵列(RAID)中的额外磁盘或故障转移群集配置中的额外服务器。
  • 系统恢复能力指的是系统在发生不利事件时保持可接受的服务水平的能力。这可能是容错组件管理的硬件错误,也可能是其他控制管理的攻击,如有效的入侵检测和防御系统。在某些情况下,指的是在发生不利事件后系统还原的能力。例如,如果故障转移群集中的一台主服务器崩溃,容错能力能够使得系统故障转移到另外的服务器上,而系统恢复能力能够保障在原系统修复后,该集群能够返回原服务器。

18.2.1 保护硬盘驱动器

在计算机中添加容错和系统恢复组件的常见方法是增加冗余磁盘阵列)。冗余磁盘阵列包括两个或两个以上的磁盘,即使其中一个磁盘损坏,大多数的RAID配置也都能够继续运行。一些常见配置如下:

  • RAID-0也被称为条带。它使用两个或两个以上的磁盘,并提高了磁盘子系统的性能,但不提供容错能力
  • RAID-1也被称为镜像。它使用两个磁盘,并含有相同的数据信息。如果一个磁盘损坏,另一个磁盘仍含有数据,这样在单一磁盘损坏后,系统仍能继续运行。系统可能会在不干扰的情况下继续运行或需要手动配置以使用没有损坏的磁盘,这取决于使用的硬件以及损坏的驱动器。
  • RAID-5也叫作奇偶校验。它使用三个或更多个磁盘,相当于一个磁盘,其中包含奇偶校验信息。如果单一磁盘损坏,磁盘阵列将继续运行,但速度会变慢。
  • RAID-10也被称为RAID1+0或条带镜像,是在条带(RAID-O)配置上再配置两个或两个以上的镜像(RAID-1)。它使用至少4个磁盘,但可以支持更多个磁盘,磁盘可添加数应为偶数。即使多个磁盘损坏,只要在每个镜像中至少有一个驱动器继续运行,它就能继续运行。例如,如果有三个镜像集(称为M1、M2、M3),则共有6个磁盘。如果M1、M2、M3中分别有一个驱动器损坏了,该阵列将继续运行。然而,如果在任何镜像集中两个驱动器都损坏了,如M1的两个驱动器,整个阵列将无法继续运行。

RAID可基于软件,也可基于硬件。基于软件的系统需要操作系统来管理阵列中的磁盘,而且这会降低系统的整体性能。它们相对便直,因为不需要除额外磁盘以外的任何其他硬件。基于硬件的磁盘阵列系统通常更有效、更可靠。虽然基于硬件的磁盘阵列更昂贵,但当使用这种阵列以增加其个关键组件的可用性时,益处大于成本。

18.2.2 保护服务器

可以通过故障转移集群将容错功能添加到关键服务器中。故障转移集群含有两个或两个以上的服务器,如果其中一台服务器出现故障,集群中的其他服务器可以通过称为故障转移的自动化过程接管其负载。故障转移集群可以含有多台服务器(不只是两台),它们还可以为多个服务或应用程序,提供容错功能。

18.2.3 保护电源

可以为不间断供电电源(UPS)、发电机或它们两者提供容错能力。一般情况下,不间断供电电源提供5到30分钟的短时间供电,而发电机提供长期电力。使用UPS的目的是为完成系统的逻辑性关闭提供足够的时间,或在发电机发电提供稳定电源之前维持电力供应。

18.2.4 受信恢复

受信恢复保证系统在发生故障或崩溃之后,能够还原到之前的状态。根据故障的类型,还原可以分为自动还原和管理员手动干预还原。然后,不论哪种还原方式,系统应该被预置,以确保还原的安全性。

系统可以被预置,在损坏时能够处于故障防护状态或应急开放状态。处于故障防护状态的系统会在故障发生时保持在防护状态,并禁止所有访问。应急开放的系统会在发生故障前保持在开放状态,并授权所有访问。对二者的选择取决于在系统故障之后安全性和可用性的重要程度。

恢复过程的两个要素能够确保可信解决方案的实施。第一个要素是失败准备。除了可靠的备份解决方案之外,还包括系统恢复及容错方法。第二个要素是系统恢复的过程。系统必须重新启动到单用户、非特权状态。这意味着系统应该重新启动,以达到正常账户能够登录系统且系统不在授权非授权用户登录的状态。系统恢复还包括在发生故障或崩溃时,恢复在系统中使用的所有受影响的文件和服务。恢复所有丢失或受损文件,更正所有变更分类标签,检查所有重要的安全文件的设置。

常见标准(在第8章”安全模型的原则、设计和功能”中有所介绍)中有一节是对受信恢复的叙述。恢复过程与系统恢复能力及容错能力相关。具体而言,定义了4种类型的受信恢复:

  • 手动式恢复——如果系统崩溃,系统并没有处于故障防护状态。相反的是,在系统故障或崩溃后,管理员需要手动执行必要措施以实现系统恢复。
  • 自动式恢复——对于至少一种类型的系统故障,系统能够自动执行受信恢复。例如,RAID硬盘能够恢复硬盘驱动器故障,但是不能恢复整个服务器故障。一些类型的故障需要手动恢复。
  • 无过度损失的自动式恢复——这类似于自动式恢复,对于至少一种类型的系统故障,系统能够自动执行恢复过程。然而,其中包括一些能够保护特定对象免受损失的机制。无过度损失的自动式恢复的方法包括对数据及其他对象的恢复。可能含有其他机制,以恢复受损文件、重建日志数据和验证密钥系统和安全组件的完整性。
  • 功能恢复——支持功能恢复的系统能够自动恢复某些特定功能。这种状态能够确保系统成功地完成功能恢复,否则系统将会回到变更前的故障防护状态。

18.2.5 服务质量

服务质量(QoS)控制能够保护负载下的数据网络的完整性。许多不同的因素有助于提升最终用户体验的质量,服务质量对这些要素进行管理,以创造能够满足商业需求的环境。

18.3 恢复策略

当灾难中断公司业务时,灾难恢复计划应该能够几乎全自动起到作用并开始为恢复操作提供支持。灾难恢复计划应该以下面这种方式进行设计,即使正式的DRP团队成员还未到达现场,灾难现场的第一位员工能够以有组织的方式立刻开始恢复工作。接下来,我们将讨论精心设计有效的灾难恢复计划时所涉及的关键子任务,它们将对迅速恢复正常业务过程和重新开始主要业务地点的活动进行指导。

除了提高响应能力之外,购买保险也能够减少经济损失。选择保险时,一定要购买足够责任范围的保险,以便能够从灾难中恢复过来。简单的定额责任范围可能不足以包括实际的更换成本。如果财产保险包括实际现金价值(ACV)条款,受损日该受损财产的公平市场价值减去从购买之日起的累计折旧价值就是能够得到的补偿。这里有一个很重要的关键点,就是除非在保险合同中有关于更换费用的条款,否则组织将要自掏腰包。

有效凭证保险责任范围为记名的、打印的和书面的文档与手稿,以及其他打印的业务记录提供了保护。不过,这种保险的责任范围并不包括对钞票和印刷的安全证书的损坏。

18.3.1 确定业务单元的优先顺序

为了尽可能最有效地恢复业务运营,就必须精心策划灾难恢复计划,以至于优先级别最高的业务单元能被最先恢复。必须识别和优化重要业务功能,以及定义在发生灾难或错误之后,想恢复哪个功能或以什么顺序恢复。

要完成这一目标,DRP团队必须首先标识那些业务单元并决定它们的优先级顺序,在业务功能方面也需如此(注意主要业务单元并不需要执行所有的业务功能,所以最终分析结果可能含有主要业务单元和其他选择单元的集合)。

18.3.2 危机管理

如果灾难袭击了你的组织,那么很可能会引起恐慌情绪。与之进行斗争的最好方法是使用组织的灾难恢复计划。对于公司中很可能首先注意到发生了紧急情况的个人(也就是保安、技术人员等),应该对他们进行完整的灾难恢复措施培训,并且让他们知道适当的通知措施和立即响应机制。

18.3.3 应急通信

当灾难来袭时,组织能够在内部与外部之间进行通信是很重要的。任何重大的灾难很容易被注意到,如果组织无法与外部保持联系,向外面的人告知恢复状况,公众很容易感到害怕并往最坏处想,进而认为组织无法恢复正常状态。灾难期间,组织内部进行沟通也是很重要的,这样员工就知道他们应该做些什么,例如:是回去工作,还是向另一个地点汇报情况?

18.3.4 工作组恢复

在设计灾难恢复计划时,记住目标是让工作组恢复到正常状态并且重新开始他们在日常工作地点的活动是非常重要的。很容易把工作组恢复变为次要目标,并认为灾难恢复纯粹是IT人员的工作,IT部门重点负责将系统和过程恢复正常。

18.3.5 可替代的工作站点

灾难恢复计划中最重要的要素之一是:在主要的工作站点无法使用时选择可以替代的工作站点。

在考虑恢复设施时,有许多可供选择的方案,方案的多少只会受到灾难恢复计划编制人员和服务提供人员创新能力的限制。接下来,我们将会讨论在灾难恢复计划中经常使用的几类站点:冷站点、温站点、热站点、移动站点、服务局以及多站点。

1.冷站点
冷站点只是备用设施,它有足够大的地方处理组织的运营工作,并带有适当的电子和环境支持系统。冷站点可能是大的仓库、空的办公大楼或其他类似的建筑物。然而,站点内没有预先安装计算设施(硬件或软件),并且没有可以使用的宽带通信链接。许多冷站点内确实有一些铜质电话线,某些站点可能还具有备用链接,从而可以使用最低限度的通知设备。
冷站点的主要优点是成本相对便宜,也就是说没有需要维护的计算基础设备,如果站点未被使用,那么就没有每月的通信费用。

2.热站点
热站点的优点是相当明显的,这种类型的场所能提供的灾难恢复保护程度是非常好的,然而成本也是极高的。一般来说,为了维护热站点,会使组织购买硬件、软件和服务的预算增加一倍,而且需要额外的人力进行维护。

3.温站点
温站点介于热站点和冷站点之间,是灾难恢复专家可以选择的中间场所。这种站点往往包含快速建立运营体系所需的设备和数据线路。与热站点一样,这些设备通常是预先配置好的,并准备就绪可以运行合适的应用程序,以便支持组织的业务运作。然而,与热站点不同的是,温站点一般不包含客户数据的备份。使温站点完全处于运营状态的主要要求是将合适的备用介质运送到温站点,并在备用服务器上还原关键数据。
在崩溃后,重新激活(温)站点至少需要12个小时。这并不意能够在12个小时激活的站点就是热站点。然而,大多数热站点的切换时间都在几秒或几分钟之内,完成交接时间也很少超过一个或两个小时。
温站点能够避免在维护操作环境的实时备份方面耗费的电信及人工费用。有了热站点和冷站点,也可以通过共享基础设施得到温站点。如果选择这种方式,请确保在无锁定政策中写明,及时在高需求时期,仍对合适的设备有使用权。深入了解此概念并检查合伙人操作计划,以确定设备能够备份”无锁定”保证。

4.移动站点
对于传统的恢复站点而言,移动站点属于非主流的替代方案。它们通常由设备齐全的拖车或其他容易重新安置的单元组成。这些场所拥有为维持安全计算环境所需的所有环境控制系统。较大的公司有时候以”移动方式”维护这些站点,随时准备通过空运、铁路、海运或地面运输,在全世界任何地点部署它们。小一些的公司可以在本地与移动站点的供应商联系,这些供应商提供的服务是以客户的随时需求为基础的。

5.服务局
服务局是租借计算机时间的公司。服务局拥有很大的服务器群,并且通常具有大量工作站。任何组织都可以与服务局签署购买合同,以便使用部分处理能力。访问可以是联机的,也可以是远程的。

6.云计算
许多组织现在将云计算作为首选的灾难恢复选项。

18.3.6 相互援助协议

相互援助协议(Mutual Assistance Agreement,MAA)也被称为互惠协议,在灾难恢复的文学作品中非常流行,但是在真实世界的实践中很少被实施。理论上,相互援助协议提供了优秀的可供选择的工作方案。在MAA下,两个组织保证在灾难发生时通过共享计算设施或其他技术资源彼此相互援助。

然而,相互援助协议存在许多缺点,这阻碍了它的广泛使用:

  • MAA很难强制实施。协议参与各方要彼此信任,在灾难发生时能够给予实际的支持。但是,当真的出现灾难时,非受害方可能会拒绝履行协议。受害方只能通过法律手段取得赔偿,但是这样做对于立即进行灾难恢复工作没有帮助。
  • 相互合作的组织的地理位置应该相对接近,以便于不同场所之间员工的交通便利。但是,地理位置靠近意味着两个组织很可能遭受相同的威胁。如果你所在的城市发生了地震,协议双方的工作场所都遭到了破坏,那么MAA也就没有任何作用了。
  • 出于对机密性的考虑,经常会阻止公司将自己的数据放置在其他公司手里。这是出于法律考虑(如医疗或财务数据的处理)或商业考虑(如贸易机密或其他情报财产问题)。

除去这些需要关心的问题,对于组织来说,MAA可能是一种很好的灾难恢复解决方案,尤其当成本成为最重要的考虑因素时。如果对于任何一种类型的替代工作设施的实施费用都无法负担,那么在业务遭到灾难袭击时,MAA能够提供一定程度的有价值的保护措施。

18.3.7 数据库恢复

许多组织依靠数据库来处理和跟踪对于持续运行的非常关键的运营、销售、物流和其他活动。出于这个原因,在灾难恢复计划中包括数据库恢复技术是很重要的。在DRP团队中包含数据库专家,他们可以对各种不同的意见提供技术可行性分析,这样做是十分明智的。毕竟,在技术上至少需要大半天时间才能完成还原工作时号,肯定不希望分配好几个小时的时间用于还原数据库备份。

接下来,我们将讨论用于创建远程数据库内容备份的三种主要技术手段:电子链接、远程日志处理和远程镜像。每一种技术都有各自的优缺点,这需要分析组织的计算需求和可获得的资源,然后选择最适合公司的方法。
1.电子链接
在电子链接这种情况中,数据库备份通过批量传送的方式被转移到远处的某个场所。远处的这个场所可以是专用的替代性恢复场所(如热站点),也可以只是由公司或承包商管理的、用于维护备份数据的远程场所。
2.远程日志处理
远程日志处理以一种更加迅速的方式完成数据的传输。数据传输仍然以批量传输的方式进行,但是发生的更加频繁,通常每小时一次或间隔时间更短。与电子链接不一样的是,在数据库备份文件被转移时,远程日志处理设置传输数据库事务日志的副本,其中包括从上次批量传输以来发生的事务。
3.远程镜像
远程镜像是最先进的数据库备份解决方案。当然,不必惊讶,也是费用最昂贵的!远程镜像使用的技术水平超过了远程日志处理和电子链接。

18.4 恢复计划开发

一旦为组织建立业务单元优先级并获得合适的替代恢复场所的办法,就该起草实际的灾难恢复计划了。不要指望一坐下来就能写出全部的计划。在形成最终的书面文档之前DRP团队很有可能要经历许多次反复修改革稿文档的过程,以满足关键业务单元的运营需求。计划中要考虑灾难恢复预算对资源、时间和费用的限制,以及可以获得的人力资源。

18.4.1 紧急事件响应

灾难恢复计划中应当包含重要人员在识别出灾难或灾难即将来临时应立即遵守的、简单但内容全面的指令。

18.4.2 人员通知

灾难恢复计划中还应该包括一份人员列表,以便在发生灾难时进行联络。通常,这些人员包括DRP团队的重要成员和那些在整个组织内执行关键灾难恢复任务的人员。这份响应清单应该包括可选的联系方式(如呼机号码、手机号码等),每一位角色还要有一位后备联系人,以防主要联系人无法联系上或出于某种原因不能到达恢复场所的情况。

18.4.3 评估

当灾难恢复团队到达现场时,他们的首要任务之一就是评估现状。这通常以旋转的方式进行:第一响应者进行非常简单的评估、分类活动井启动灾难响应。随着事件的发展,更加详细的评估将用于衡量灾难恢复工作的有效性以及资源分配的优先级。

18.4.4 备份和离站存储

灾难恢复计划(尤其是技术指南)应该完整地说明组织要求的备份策略。实际上,这是任何业务连续性计划和灾难恢复计划中最重要的要素之一。

目前存在下列三种主要的备份类型:

  • 完整备份——顾名思义,完整备份存储着受保护设备上包含的数据的完整副本。无论归档比特的设置如何,完整备份都会复制系统中的所有文件。一旦完整备份完成,每个文件的归档比特都会被重置、关闭或设置为0。
  • 增量备份——增量备份只存储那些自从最近一次完整备份或增量备份以来被修改过的文件。增量备份只复制归档比特被打开、启用或设置为1的文件。一旦增量备份完成,所有被复制的文件的归档比特都会被重置、关闭或设置为0。
  • 差异备份——差异备份存储那些自从最近一次完整备份以来被修改过的所有文件。差异备份只复制归档比特被打开、启用或设置为1的文件。不过,与完整备份和增量备份不同的是,差异备份过程并不改变归档比特。

增量备份和差异备份之间最重要的差异在于发生紧急事件时还原数据所需的时间。如果组合使用完整备份和差异备份,那么只需要还原两个备份,也就是最近的完整备份和最近的差异备份。另一方面,如果组合使用完整备份和增量备份,那么就需要还原最近的完整备份以及最近一次完整备份以来完成的所有增量备份。要根据创建备份所要求的时间做出权衡:差异备份的还原时间短,但是生成时间比增量备份长。

备份介质的保存同样至关重要。我们可以方便地将备份介质保存在主操作中心内部或附近,以便轻易满足备份数据的请求,但肯定需要至少在一个离站位置保管备份介质的副本,从而在主操作位置突然受到破坏的情况下能够提供冗余。

大多数组织采取的备份策略都会使用一种以上的备份,并有介质循环使用计划。这允许备份管理人员充分访问备份数据以满足用户的请求,并在尽量减少购买备份介质支出的同时提供容错能力。比较常用的一种备份策略是:每个周末进行一次完整备份,每天晚上进行增量备份或差异备份。具体的备份方式和所有详细的备份流程取决于组织的容错要求。如果无法容忍少量的数据丢失,那么容忍故障的能力比较低。然而,如果数小时或数天的数据丢失都没有严重的后果,那么容忍故障的能力是比较高的。

1.备份介质格式
2.磁带到磁带(D2D)备份
3.最佳备份做法
4.磁带轮换

18.4.5 软件托管协议

软件托管协议是一种特殊的工具,可以对公司起到保护作用:避免公司受软件开发商的代码故障的影响,以便为产品提供足够的支持,还可以防止出现由于软件开发商破产而造成产品失去技术支持的情况。

18.4.6 外部通信

在灾难恢复期间,与组织外部不同的实体进行通信是很有必要的。需要联系供应商提供供应物资,以便在需要时他们能够支持灾难恢复工作。客户会与你联络,从而确认仍在运营。负责公关的领导可能需要联系媒体或投资公司,经理可能需要与政府的管理局进行会谈。出于这些原因,灾难恢复计划中必须包括数量充足的与外部联络的通信渠道,以便满足公司的运营需求。通常,在灾难期间由CEO作为发言人不是合理的业务实践或恢复实践。公司应当雇用和培训媒体联络人员,以便随时准备担负此责任。

18.4.7 公用设施

如本章前面所述,组织要依靠一些公用设施来提供自身基础设施的关键要素,如电力、水、天然气和管道服务等。因此,灾难恢复计划中应该包括解决这些服务在灾难发生过程中出现问题的联系信息和措施。

18.4.8 物流和供应

18.4.9 恢复与还原的比较

18.5 培训、意识与文档记录

与业务连续性计划一样,对所有涉及灾难恢复工作的人员进行培训是十分重要的。培训所要求的程度根据个人在公司中的职位和工作角色而有所不同。当设计培训计划时,应该考虑下面这些要素:
•对全体新员工进行定向培训。
•对第一次担任新的灾难恢复角色的员工进行基本培训。
•对灾难恢复团队的成员进行详细的复习培训。
•对所有的其他员工进行简要的复习培训(可以作为会议的一部分完成培训或通过像电子邮件的时事通讯这样的介质发送给所有员工)。

18.6 测试与维护

每一种灾难恢复计划都必须定期进行测试,以确保计划的条款是可行的并且符合组织变化的需要。可以实施的测试类型依赖于能够使用的恢复设施的类型、组织的企业文化和灾难恢复团队成员的可用性。本章余下的部分将讨论5种主要的测试类型:通读测试、结构化演练、模拟测试、并行测试和完全中断测试。

18.6.1 通读测试

通读测试是其中一种最简单的测试,但也是最重要的一种测试。在这种测试类型中,只需向灾难恢复团队成员分发灾难恢复清单的副本,并要求他们审查清单。

18.6.2 结构化演练

结构化演练进一步进行了测试。在这种经常被称为”桌面练习”的测试类型中,灾难恢复团队成员聚集在一间大会议室中,不同的人在灾难发生时扮演不同角色。通常,确切的灾难情景只有主考官知道,他在会议上向团队成员描述具体的情况。然后,团队成员通过参考他们的灾难恢复计划对特定的灾难类型进行讨论,进而得出适当的响应办法。

18.6.3 模拟测试

模拟测试与结构化演练、类似。模拟测试为灾难恢复团队成员呈现情景并要求他们产生出适当的响应措施。与前面讨论的测试不同,其中某些响应措施随后会被测试。这种测试可能涉及中断非关键的业务活动并使用某些操作人员。

18.6.4 井行测试

并行测试表示下一个层次的测试,并涉及将实际人员重新部署到替换的恢复场所和实现场所启用措施。被重新部署到该场所的员工,以灾难实际发生时的方式执行他们的灾难恢复职责。唯一的差别在于主要设施的运营不会被中断,这个场所仍然处理组织的日常业务。

18.6.5 完全中断测试

完全中断测试与并行测试的操作方式类似,但涉及实际关闭主场所的运营井将其转移到恢复场所。出于很明显的原因,完全中断测试安排起来极其困难,并且经常会遇到来自管理层的阻挠。

18.6.6 维护

需要记住的是,灾难恢复计划是一份灵活的文档。随着组织需求的变化,必须对灾难恢复计划进行修改以符合变化的需要。通过使用组织好的和协调一致的测试计划,我们会发现灾难恢复计划中需要修改的地方。微小的变化经常会通过一系列的电话交谈或电子邮件而进行,然而重大的变化可能需要整个灾难恢复团队进行一次或几次会议商讨。

18.7 本章小结
  • 灾难恢复计划是完整的信息安全计划的关键。无论业务连续性计划有多全面,当业务被一场灾难中断时,都将面临快速而有效地恢复运营的问题。
  • 在本章中,你了解了不同类型的可能会影响业务的自然和人为灾害,你还探索了恢复场所的类型和提高恢复能力的备份策略。
  • 组织的灾难恢复计划是安全专业人员监管下的一份最重要的文件,能够为在发生灾难时负责确保操作连续性的工作人员提供保障。在将主场所恢复到运行状态的同时,DRP能够提供激活交替处理场所事件的有序序列。一旦成功地开发了DRP,就要培养相应的使用人才,以确保准确记录,并定期进行检查以确保响应人员对计划有清晰的概念。
18.8 考试要点
  • 了解可能威胁组织的常见自然灾难。经常威胁组织的自然灾难包括地震、洪水、暴风雪、火灾、海啸和火山爆发。
  • 了解可能威胁组织的常见人为灾难类型。常见的人为灾难包括爆炸、电气火灾、恐怖行为、电力中断、其他公共设施故障、基础设施故障、硬件/软件故障、罢工、盗窃和故意破坏。
  • 熟悉常见的恢复设施类型。常见的恢复设施包括冷站点、温站点、热站点、移动站点、服务局以及多站点。必须理解每种设施的优点和缺陆。
  • 解释相互援助协议的潜在优点及其不能在当今的商业活动中普遍实现的原因。虽然相互援助协议提供了相对廉价的灾难恢复替代场所,但是由于它们无法强制实施而不能被普遍使用参与的组织可能会由于相同的灾难而被迫关闭,并且还会引发机密性问题。
  • 了解可以帮助数据库备份的技术。数据库得益于三种备份技术。电子传送用于将数据库备份传输到远程站点,作为批量传输的一部分。远程日志则用于更频繁的数据传输。借助远程镜像技术,数据库事务在实时备份站点镜像。
  • 了解灾难恢复计划测试的5种类型和每种测试对正常业务运营的影响。灾难恢复计划测试的5种类型是通读测试、结构化演练、模拟测试、并行测试和完全中断测试通读测试完全是文书工作练习,而结构化演练涉及项目组会议;两者都不会影响业务运营。模拟测试可能会使非关键的业务停止运作。并行测试涉及重新部署人员,但不会影响日常运作。完全中断测试包括关闭主要系统以及将责任转移到恢复设施。
参考链接:

=END=

,

《 “CISSP官方学习指南第7版#第18章” 》 有 4 条评论

  1. 运维故障管理的思考
    https://mp.weixin.qq.com/s/Ux6d0RDDN4yNPWIqzTd-uQ
    `
    检测故障、预防故障、处理故障、故障自愈、杜绝故障处理时扯皮

    故障管理目标:
    减少故障,提升故障处理效率
    增强线上产品稳定性,提升SLA
    运维问题总结,作为知识库
    完善故障问题的检测监控
    为故障自愈提供依据
    `

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注