2024年CrowdStrike导致的Windows系统大规模蓝屏事件整理

=Start=

缘由：

简单收集整理一下北京时间上周五（2024-07-19）发生的由 CrowdStrike 导致全球大规模 Windows 系统蓝屏事件的相关内容，方便后面有需要的时候参考。

PS：文章主要内容基本都是转摘/官网内容翻译。
PS2：重大安全事件的报告，国内的还是要看安天，足够理性、专业和全面。
PS3：不同企业对于这件事情的思考或是安全软件是否需要足够底层的看法是不一样的，因为它们各自所处的位置/环境，面临的风险，拥有的资源都不一样，不能一概而论。

正文：

参考解答：

CrowdStrike 导致全球大规模 Windows 系统蓝屏事件的基本情况

北京时间2024年7月19日中午开始，全球多地用户在X（原推特）、脸书、微博等社交平台反映使用微软系统的电脑出现蓝屏现象，至少20多个国家的交通、金融、医疗、零售等行业或公共服务的业务系统受到影响。其原因是使用CrowdStrike公司终端安全产品的Windows操作系统的主机大面积发生系统崩溃故障，即“蓝屏死机”（Blue Screen of Death,BSOD），导致计算机系统无法正常运行。出现故障的终端并不止限于桌面终端，而是覆盖了大量的服务器和云节点，包括导致了多个重要的微软和AWS的云服务和租户服务中断。而且相关主机重新启动后依然会自动进入蓝屏状态，形成了反复崩溃闭环。此事件是今年以来全球波及范围最广的信息系统灾难性事件，也是由安全产品自身导致的最大规模的安全灾难事件，其事件带来的后果影响远远超过了2007年的赛门铁客误杀中文版Windows导致系统蓝屏事件等历史上由安全产品带来的安全事件。北京时间7月19日19时，安天由云安全中心、安全研究与应急处理中心、攻防实验室人员组成混合分析小组，进行了跟进分析，及时将分析研判进展上报管理和应急部门，开发了CrowdStrike_Crash_Fix应急处理小工具，协助求助用户处理威胁，并发布了本分析报告。

这是一起因广泛使用的安全产品故障，导致大量主机系统崩溃，并连带导致大量基础设施系统无法提供服务导致了多米诺效应的事件。该事件造成了美国、英国、澳大利亚、加拿大、日本等至少20多个国家和地区的组织机构的业务系统服务中断，全球多地的航空运输、医疗服务、媒体、银行与金融服务、零售、餐饮等行业或公共服务受到了影响。

事件时间轴梳理

北京时间2024年7月19日12:09，按照自身常规运营流程，网络安全公司CrowdStrike针对其旗下安全产品Falcon发布了一个监控传感器（Sensor）的配置更新。这个配置更新类似于杀毒软件的病毒库更新，属于Falcon安全软件的日常更新操作，通常每天都会更新好几次，Falcon自行通过CrowdStrike官网进行下载更新。

这个配置更新是针对 Windows 系统（包含Windows客户端系统和Windows服务器操作系统）所特有的命名管道执行功能（Named pipe execution）的相关安全监控（CrowdStrike内部事件ID 291），其他操作系统平台并不适用。注意这个配置更新文件虽然文件扩展名是“.sys”，但并不是可以直接加载的系统内核驱动文件。

无论Windows系统位于任何位置（例如是企业On-premises或者公有云云端），当Windows系统层面的CrowdStrike Falcon下载并更新此配置文件之后，Falcon相关系统代理（Agent）的系统内核驱动文件csagent.sys加载此新配置文件时，即触发一个自身的软件内部逻辑错误，并导致Windows系统出现宕机故障。

此时Windows系统不能正常启动，需要人工通过安全模式或者系统恢复模式启动系统（难以自动化批量操作），然后删除
C:\Windows\System32\drivers\CrowdStrike 目录下所有 C-00000291 开头的.sys文件（C-00000291*.sys）之后，才能正常启动Windows系统。

CrowdStrike于北京时间2024年7月19日 13:27紧急修复了该配置更新。按照CrowdStrike的官方公告，运行Falcon sensor for Windows 7.11以上版本、并且在7月19日12:09到7月19日 13:27之间进行了该配置更新的系统均会受到本次宕机事件的影响。（实际时间也就1个多小时，反应速度其实挺快，只是因为基数太大，且不仅仅包含Windows客户端系统，还包含Windows服务器，所以影响范围很广）

根据微软的最新公告，基于目前的最新评估，本次CrowdStrike宕机事件影响全球约850万台Windows设备，不及全球 Windows 设备总数的百分之一。微软第一时间全球紧急协调数百位技术专家直接参与相关恢复支持，同时协助IT行业的其他厂商（包括 AWS、GCP），为受到影响的相关客户提供支持和沟通，另外提供了相关恢复技术指导说明。

CrowdStrike 的工作机理解析

CrowdStrike Falcon Sensor 是非常典型的具有内核（驱动）级主防的EDR产品，其在Windows平台下安装/预装后，将对应程序文件安装到%ProgramFiles% \CrowdStrike指向的目录下，而将其驱动程序和重要的数据文件安装到%SystemRoot%\System32\ drivers\CrowdStrike 目录下。其主要的防御能力来自于多个系统内核驱动模块。其中CSBoot.sys是Windows 操作系统的提前启动反恶意软件（ELAM）功能模块（利用微软接口实现安全软件要比恶意代码先行加载以保证引导链安全的机制）；CSFirmwareAnalysis.sys是固件安全模块；CSAgent.sys是主防护的核心功能模块；cspcm4.sys为策略解析模块。加载的先后顺序依次为CSBoot.sys、CSFirmwareAnalysis.sys、CSDeviceControl.sys、CSAgent.sys、cspcm4.sys。

发生蓝屏的模块CSAgent.sys是其主要的功能模块，该模块带有CrowdStrike和微软的双重数字签名。根据安天攻防实验室的初步分析，它包含文件监测、运行监测、网络过滤等功能，是其主动防御和主机防火墙的核心驱动。基本的运行原理是：驱动程序加载后首先读取策略配置，根据策略对文件读写、进程加载、内存执行、API调用、网络访问等动作，做出放行与阻止操作；优秀的主机安全软件为了快速敏捷的对抗威胁，即时更新防护能力，往往都支持在线分发、可动态接收、即时解析生效下发的策略，这样可以灵活变更配置处理突发事件而不用重启系统，CrowdStrike就使用了这种机制。但由于驱动程序直接调用系统内核接口，模块的稳定性对系统内核会有直接影响，可能是由于某个不当的策略配置，在解析执行策略时，未能正确处理好和系统间的同步机制或者是系统资源分配不当，造成系统死锁问题，引发蓝屏保护。

对“猎鹰折羽”事件的反思

1、事件源自供应链攻击的可能性依然不能排除，且至少昭示了一种新的威胁样板：虽然CrowdStrike给出了对本事件的官方解释是这不是一起网络安全事件，而是一起质量事故。但我们依然认为仅凭现有信息不能排除这是一严重的安全软件供应链攻击事件。由于安全产品在防御体系中往往处于关键位置，如：网络边界（如安全网关）、实时监测（如主机杀毒和防护软件）或业务流程之上（如身份认证），因此攻击安全软件，特别是攻击安全软件的供应链体系，有可能产生比攻击应用软件或应用软件供应链更为严重的后果，SolarWinds的供应链攻击让我们看到了入侵开发环境大范围建立下游横向移动桥头堡的可能，而本次事件从后果上昭示出了利用安全软件供应链达成大范围崩溃瘫痪的风险。而这种构造可以完全不依赖于注入代码，而是可以利用安全产品对配置、库、数据的解析机理，通过解析错误或者流程异常，导致崩溃或DoS的后果。

2、正视主机和工作负载的安全是网络安全的基石型需求：此次事件是CrowdStrike在全球庞大的装机规模与Windows系统作用耦合的结果。但我们不应只将目光聚集在事故本身。更需要看到主机系统侧威胁检测防御能力是必须强化建设的刚需环节。CrowdStrike飞速发展的基础，正源自先进计算架构的崛起导致的源自传统安全边界的失效，安全对抗从聚焦于网络检测和拦截的御敌于城门之外，转入必须全面应对主机系统侧的恶意代码、混合执行体攻击、漏洞组合利用和社工钓鱼的深水区。随着数字化转型、资产云化、泛在接入和加密协议的普遍使用，防火墙、网闸等传统访问控制边界或数据交换边界已经全面塌陷，安全的基石正在重回主机系统一侧，系统安全能力即需要跟随现代计算结构的延展在云主机、虚拟化、容器中延展，也需要进一步强化传统终端、工业和专用场景工作站、移动设备等提供安全防护。现代防御体系既要构建出防御纵深，也必须构建网状的联动体系。让每一个主机和工作负载系统的单点防护能力形成组织和弹性，实现攻击者攻击一点即被感知，其载荷、战术将快速被捕获转化为情报共享，快速形成其他节点的防御能力。正是在这个大趋势下，国际传统的Big AV企业依托在恶意代码检测和内核主防的深刻积累，继续保持自己的强势存在。更使CrowdStrike实现了快速的发展崛起。而本次事件的关注点，不应仅仅放在安全产品自身安全性这一视角上。而更要关注我国长期存在的，不够重视主机系统侧安全能力建设、缺乏投入而带来的低效防护问题才是我们面对的显示问题。一些场景下，现实场景下是终端系统感染式病毒、蠕虫、宏病毒事件此起彼伏，而规划中却又在讨论着未知检测、APT防护和人工智能。部分主机安全产品缺少可靠的恶意代码检测能力，为降低成本，普遍采用检测能力严重不足的开源反病毒引擎ClamAV；甚至忽视供应链风险，在没有商业授权下，直接二进制嵌入国外反病毒引擎。部分产品缺少有效的驱动防护和阻断机制，只能通过少数Ring3 HOOK采集信息，基本无法看到隐蔽攻击行为。在主机配置加固方面，很多产品只能管理几十个配置点，而相比之下，美方STIG的安全规范，平均每种操作系统的安全配置点已达600多个。面对这种差距，对CrowdStrike开启嘲讽模式是没有意义的，反而应该正视在主机安全侧普遍存在的防护缺失问题。安全防护能力必须在系统侧持续强化，必须构建最小化的安全边界，堆砌盒子的方式越来越难以达成防御价值，伴随先进计算架构，将系统安全和威胁检测能力深度融合才是安全的未来。

3、安全产品，包括安全产品的研发环境和全生命周期需要被高度重视：由于应用软件和平台具有更高的用户可见性，关系用户业务连续性，因此网络管理者往往更关注应用软件特别是平台系统的更新测试和部署流程。而安全软件为对抗威胁，对抗部署后的能力衰减，需要更高频度的升级，类似病毒库需要高频的升级,策略库、漏洞库也需要更新迭代。由于这些升级，基本上都在后台自动化运行，往往容易成为自身测试的盲点，客户侧场景下的黑箱。由于安全产品具备安全功能，容易给用户带来信任感，但安全产品的安全功能和安全产品本身的安全的并不等价，如果安全厂商不重视自身的产品的安全性，越多的功能则会带来更大的不安全。但与此同时，也建议用户，不因为本事件对能力升级带来过度恐慌，从而拒绝升级。安全软件如果不能及时升级，会导致相对威胁演进，监测防护能力快速衰减。这就给攻击突防带来了更大的机会窗口，全面提升攻击者的成功率，导致用户在规避偶然性风险的同时，导致了必然性风险。

4、驱动级主防是必须的，但需要更加可靠健壮安全：从物理主机到虚拟化的防护来看，尽管出现了这样重大的安全事件，我们依然坚信驱动级主防是必须的。基于驱动和内核模块进行安全防护虽然确实有更大的导致系统可靠性的风险，但内核级防护的安全稳定性，应通过更自动和全面的测试等来保障，而非因噎废食。如果没有内核级的主防，仅靠Ring3层面的HOOK和采集点，不但几乎很难拦截和阻断威胁，甚至无法实现有效的威胁感知，并可能很容易被攻击者删除或卸载。这种防护虽然一定程度上降低了系统出现底层故障的风险，但却将客户场景带入到随时可能被攻击者击穿的状态中。系统安全产品的Agent应实现更好的积木化，可以根据用户的防御能力和资源利用情况，让用户在底层防护、或轻量监测中可以选择，而不是借此放大用户对驱动级主防的恐惧感，而将用户引入弱防御的风险境地。当然我们也同样认为驱动级主防的设计、实现和规则运营，必须高度谨慎，要将尽可能多的威胁拦截在运行之前，而尽量避免进入到内存对决状态，这也是我们执行体治理理念的重要导向。

5、现代计算结构有可能进一步从虚拟化向容器前移：在工作负载的解决方案中，虚拟化方案是相对较重载的，一旦出现底层安全问题，则难以修复。例如本次事故中的公有云虚拟机即使重启后，也会再次蓝屏，因无法连接远程桌面，也自然无法采取进入安全模式的方式恢复。相比来看，容器+金丝雀发布的组合，则相对能减少更新/部署故障。预测在本次事件后，除数据中心和边缘云外，独立工作负载使用容器技术的进程，会大幅提速。而虚拟化支持相对不够理想的信创架构来说，是一个利好。但与此同时，简单的依托物理主机安全平移到虚拟化中来支撑云解决方案的传统端点安全厂商，则面临难以满足容器安全需求的新挑战。始终跟随先进计算架构的演进、防护先进计算架构，是安全厂商基业长青的重要保障。

6、我们没有心存侥幸的资本：美国寡头资本和政客竭力在网络安全问题上反复抹黑中国，推动中美脱钩，持续在中美网信产业间制造裂痕，这使网络安全产业已经不可逆的在走向阵营化。特别是CrowdStrike反复参与抹黑中国的活动，在面对本次重大全球事件中也显示出冷漠和傲慢，让我们对其有很大的反感情绪。但我们依然认为，虽然发生了如此严重的事件，不能掩盖CrowdStrike在产品研发和运营层面有着超强实力，其依然是国际最优秀的安全企业之一。安天作为同样以恶意代码检测分析为能力基本面、以平台+AI赋能为运行支撑、以主机系统侧安全为基石场景的安全企业，面对国际同行的发生重大事件，我们没有幸灾乐祸的资本，而必须将本次事件视为产业的共同教训。系统安全是一种和保护对象深度耦合的产品形态，我们将保持对用户场景更深的敬畏。而对中国网络安全产业来说，这一次灾难发生于身外，并非说明我们通过了“大考”，只能说：真正需要我们应对的风险，还潜伏在不远的未来。也相信投身系统安全的同仁们都勇于积极应对系统安全面临的巨大挑战，致力于研发创造和运营先进安全能力。我们不应因高水平驱动和内核模块防御有极高稳定性、可靠性要求而退缩，转而炒作轻量级Agent等概念；不应因强化自身防御环境和全生命周期的代码安全需要巨大投入而躲避必须的建设成本。更不应事不关己、自我标榜，甚至兴灾乐祸；对我们自己来说，从别人的事件中找到我们自己的改进点，在继续提升系统侧安全能力和防护效果的同时，持续强化自身的安全左移、协助客户完善能力分发运行流程，才是负责任的网安企业必须担当的责任！

而从另一个角度看，国内政企机构有庞大的Windows主机用户基数，能在这样的大规模事件中几乎未受到波及，正说明中国网络安全产业和技术自立自强的重大意义。虽然中国网安产业体系在市场尚未充分发育时，陷入了低水平、过饱和竞争的焦灼状态，但在发展新质生产力征程中，我们必将成长为具有决定性的强大产业力量。

风险检测能力与系统 Hook 深度在一定程度上是成正比的，这是一种平衡，没有完美的选项，很多所谓的轻量级 Agent ，无非就是牺牲了内核态的检测能力，只做用户态监控，这会导致真正面临一些黑客攻击时极易被绕过，是一种病态的舍本逐末的追求，安全产品真正应该做的是尽量采用类似 ebpf 的内核态技术，在保证检测能力的前提下降低对客户的环境影响，也希望这次 crowdstrike 事件的发生能推动 win ebpf 技术的发展。

不蓝屏的安全软件一定不是好产品

一个检测能力强、安全效果明显、响应实时、漏报少、准确率高的，终端安全产品，（无论是 DLP、EDR、杀软（AV），还是透明加解密），其渗入系统驱动层就越深、越复杂。

常在河边走，哪能不湿鞋。因此越是能力强的终端安全产品，其开发和使用过程中，遇到蓝屏的概率就越大，这是无法改变的事实。最终的结果就是稳定性在 99% 的小数点之后，再多加几个 9 而已，是稳定性为 99%，还是 99.99%。

稳定性，是终端安全软件在其安全能力之外的，最为重要的能力了。

（对于大部分安全风险/需求没有那么强的企业来说，对稳定性的要求可能比对安全性的要求还要高，一方面是面临的安全对手并没有那么高深，对系统底层的hook要求并没有那么高，可能上层用户态的做好了也就基本满足需求了，另一方面是自研能力没那么强，没办法做到既要安全又要稳定的效果，而且话说回来，强如CrowdStrike都能出现这种问题，你觉得自研或是采买其它家安全软件就能完全规避得了这种问题吗？）

参考链接：

CrowdStrike导致大规模系统崩溃事件的技术分析 (2024年07月21日 05:00) #理性、专业和全面的深入解读
https://mp.weixin.qq.com/s/UWkZXw7ZKDY662A3RnlSSw

百家｜张美波：深度解密 CrowdStrike 宕机事件 (2024年07月22日 16:45)
https://mp.weixin.qq.com/s/vVi7m_WCdfTLOAtAFct3XQ

让全球电脑蓝屏两次，这个男人完成了史诗级成就。 (2024年07月23日 00:00)
https://mp.weixin.qq.com/s/QvNtopNX7vKLa17PDdmm0Q

CrowdStrike史诗级蓝屏，到底怎么破？ (2024年07月20日 00:00)
https://mp.weixin.qq.com/s/ZJW9GRyd35pjSjsgVPomWg

REMEDIATION AND GUIDANCE HUB: FALCON CONTENT UPDATE FOR WINDOWS HOSTS #CrowdStrike的官方说明
https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/

CrowdStrike PIR Executive Summary
https://www.crowdstrike.com/wp-content/uploads/2024/07/CrowdStrike-PIR-Executive-Summary.pdf

Technical Details: Falcon Content Update for Windows Hosts
https://www.crowdstrike.com/blog/falcon-update-for-windows-hosts-technical-details/

Named Pipes
https://learn.microsoft.com/en-us/windows/win32/ipc/named-pipes

Helping our customers through the CrowdStrike outage
https://blogs.microsoft.com/blog/2024/07/20/helping-our-customers-through-the-crowdstrike-outage/

协助客户解决 CrowdStrike 引发的故障 #微软的声明
https://news.microsoft.com/zh-cn/%e5%8d%8f%e5%8a%a9%e5%ae%a2%e6%88%b7%e8%a7%a3%e5%86%b3-crowdstrike-%e5%bc%95%e5%8f%91%e7%9a%84%e6%95%85%e9%9a%9c/

Introducing Windows Insider Channels
https://blogs.windows.com/windows-insider/2020/06/15/introducing-windows-insider-channels/

KB5042421: CrowdStrike issue impacting Windows endpoints causing an 0x50 or 0x7E error message on a blue screen
https://support.microsoft.com/en-us/topic/kb5042421-crowdstrike-issue-impacting-windows-endpoints-causing-an-0x50-or-0x7e-error-message-on-a-blue-screen-b1c700e0-7317-4e95-aeee-5d67dd35b92f

=END=

26 7 月, 2024

Docker

KnowledgeBase, Security, Windows

BCM, BSOD, Crowdstrike, Security, Windows, 稳定性, 系统崩溃, 终端安全, 蓝屏