2024年CrowdStrike导致的Windows系统大规模蓝屏事件整理


=Start=

缘由:

简单收集整理一下北京时间上周五(2024-07-19)发生的由 CrowdStrike 导致全球大规模 Windows 系统蓝屏事件的相关内容,方便后面有需要的时候参考。

PS:文章主要内容基本都是转摘/官网内容翻译。
PS2:重大安全事件的报告,国内的还是要看安天,足够理性、专业和全面。
PS3:不同企业对于这件事情的思考或是安全软件是否需要足够底层的看法是不一样的,因为它们各自所处的位置/环境,面临的风险,拥有的资源都不一样,不能一概而论。

正文:

参考解答:

CrowdStrike 导致全球大规模 Windows 系统蓝屏事件的基本情况

北京时间2024年7月19日中午开始,全球多地用户在X(原推特)、脸书、微博等社交平台反映使用微软系统的电脑出现蓝屏现象,至少20多个国家的交通、金融、医疗、零售等行业或公共服务的业务系统受到影响。其原因是使用CrowdStrike公司终端安全产品的Windows操作系统的主机大面积发生系统崩溃故障,即“蓝屏死机”(Blue Screen of Death,BSOD),导致计算机系统无法正常运行。出现故障的终端并不止限于桌面终端,而是覆盖了大量的服务器和云节点,包括导致了多个重要的微软和AWS的云服务和租户服务中断。而且相关主机重新启动后依然会自动进入蓝屏状态,形成了反复崩溃闭环。此事件是今年以来全球波及范围最广的信息系统灾难性事件,也是由安全产品自身导致的最大规模的安全灾难事件,其事件带来的后果影响远远超过了2007年的赛门铁客误杀中文版Windows导致系统蓝屏事件等历史上由安全产品带来的安全事件。北京时间7月19日19时,安天由云安全中心、安全研究与应急处理中心、攻防实验室人员组成混合分析小组,进行了跟进分析,及时将分析研判进展上报管理和应急部门,开发了CrowdStrike_Crash_Fix应急处理小工具,协助求助用户处理威胁,并发布了本分析报告。

这是一起因广泛使用的安全产品故障,导致大量主机系统崩溃,并连带导致大量基础设施系统无法提供服务导致了多米诺效应的事件。该事件造成了美国、英国、澳大利亚、加拿大、日本等至少20多个国家和地区的组织机构的业务系统服务中断,全球多地的航空运输、医疗服务、媒体、银行与金融服务、零售、餐饮等行业或公共服务受到了影响。

事件时间轴梳理

  1. 北京时间2024年7月19日12:09,按照自身常规运营流程,网络安全公司CrowdStrike针对其旗下安全产品Falcon发布了一个监控传感器(Sensor)的配置更新。这个配置更新类似于杀毒软件的病毒库更新,属于Falcon安全软件的日常更新操作,通常每天都会更新好几次,Falcon自行通过CrowdStrike官网进行下载更新。
  2. 这个配置更新是针对 Windows 系统(包含Windows客户端系统和Windows服务器操作系统)所特有的命名管道执行功能(Named pipe execution)的相关安全监控(CrowdStrike内部事件ID 291),其他操作系统平台并不适用。注意这个配置更新文件虽然文件扩展名是“.sys”,但并不是可以直接加载的系统内核驱动文件。
  3. 无论Windows系统位于任何位置(例如是企业On-premises或者公有云云端),当Windows系统层面的CrowdStrike Falcon下载并更新此配置文件之后,Falcon相关系统代理(Agent)的系统内核驱动文件csagent.sys加载此新配置文件时,即触发一个自身的软件内部逻辑错误,并导致Windows系统出现宕机故障。
  4. 此时Windows系统不能正常启动,需要人工通过安全模式或者系统恢复模式启动系统(难以自动化批量操作),然后删除
    C:\Windows\System32\drivers\CrowdStrike 目录下所有 C-00000291 开头的.sys文件(C-00000291*.sys)之后,才能正常启动Windows系统。
  5. CrowdStrike于北京时间2024年7月19日 13:27紧急修复了该配置更新。按照CrowdStrike的官方公告,运行Falcon sensor for Windows 7.11以上版本、并且在7月19日12:09到7月19日 13:27之间进行了该配置更新的系统均会受到本次宕机事件的影响。(实际时间也就1个多小时,反应速度其实挺快,只是因为基数太大,且不仅仅包含Windows客户端系统,还包含Windows服务器,所以影响范围很广)
  6. 根据微软的最新公告,基于目前的最新评估,本次CrowdStrike宕机事件影响全球约850万台Windows设备,不及全球 Windows 设备总数的百分之一。微软第一时间全球紧急协调数百位技术专家直接参与相关恢复支持,同时协助IT行业的其他厂商(包括 AWS、GCP),为受到影响的相关客户提供支持和沟通,另外提供了相关恢复技术指导说明。

CrowdStrike 的工作机理解析

CrowdStrike Falcon Sensor 是非常典型的具有内核(驱动)级主防的EDR产品,其在Windows平台下安装/预装后,将对应程序文件安装到%ProgramFiles% \CrowdStrike指向的目录下,而将其驱动程序和重要的数据文件安装到%SystemRoot%\System32\ drivers\CrowdStrike 目录下。其主要的防御能力来自于多个系统内核驱动模块。其中CSBoot.sys是Windows 操作系统的提前启动反恶意软件(ELAM)功能模块(利用微软接口实现安全软件要比恶意代码先行加载以保证引导链安全的机制);CSFirmwareAnalysis.sys是固件安全模块;CSAgent.sys是主防护的核心功能模块;cspcm4.sys为策略解析模块。加载的先后顺序依次为CSBoot.sys、CSFirmwareAnalysis.sys、CSDeviceControl.sys、CSAgent.sys、cspcm4.sys。

发生蓝屏的模块CSAgent.sys是其主要的功能模块,该模块带有CrowdStrike和微软的双重数字签名。根据安天攻防实验室的初步分析,它包含文件监测、运行监测、网络过滤等功能,是其主动防御和主机防火墙的核心驱动。基本的运行原理是:驱动程序加载后首先读取策略配置,根据策略对文件读写、进程加载、内存执行、API调用、网络访问等动作,做出放行与阻止操作;优秀的主机安全软件为了快速敏捷的对抗威胁,即时更新防护能力,往往都支持在线分发、可动态接收、即时解析生效下发的策略,这样可以灵活变更配置处理突发事件而不用重启系统,CrowdStrike就使用了这种机制。但由于驱动程序直接调用系统内核接口,模块的稳定性对系统内核会有直接影响,可能是由于某个不当的策略配置,在解析执行策略时,未能正确处理好和系统间的同步机制或者是系统资源分配不当,造成系统死锁问题,引发蓝屏保护。

对“猎鹰折羽”事件的反思

1、事件源自供应链攻击的可能性依然不能排除,且至少昭示了一种新的威胁样板:虽然CrowdStrike给出了对本事件的官方解释是这不是一起网络安全事件,而是一起质量事故。但我们依然认为仅凭现有信息不能排除这是一严重的安全软件供应链攻击事件。由于安全产品在防御体系中往往处于关键位置,如:网络边界(如安全网关)、实时监测(如主机杀毒和防护软件)或业务流程之上(如身份认证),因此攻击安全软件,特别是攻击安全软件的供应链体系,有可能产生比攻击应用软件或应用软件供应链更为严重的后果,SolarWinds的供应链攻击让我们看到了入侵开发环境大范围建立下游横向移动桥头堡的可能,而本次事件从后果上昭示出了利用安全软件供应链达成大范围崩溃瘫痪的风险。而这种构造可以完全不依赖于注入代码,而是可以利用安全产品对配置、库、数据的解析机理,通过解析错误或者流程异常,导致崩溃或DoS的后果。

2、正视主机和工作负载的安全是网络安全的基石型需求:此次事件是CrowdStrike在全球庞大的装机规模与Windows系统作用耦合的结果。但我们不应只将目光聚集在事故本身。更需要看到主机系统侧威胁检测防御能力是必须强化建设的刚需环节。CrowdStrike飞速发展的基础,正源自先进计算架构的崛起导致的源自传统安全边界的失效,安全对抗从聚焦于网络检测和拦截的御敌于城门之外,转入必须全面应对主机系统侧的恶意代码、混合执行体攻击、漏洞组合利用和社工钓鱼的深水区。随着数字化转型、资产云化、泛在接入和加密协议的普遍使用,防火墙、网闸等传统访问控制边界或数据交换边界已经全面塌陷,安全的基石正在重回主机系统一侧,系统安全能力即需要跟随现代计算结构的延展在云主机、虚拟化、容器中延展,也需要进一步强化传统终端、工业和专用场景工作站、移动设备等提供安全防护。现代防御体系既要构建出防御纵深,也必须构建网状的联动体系。让每一个主机和工作负载系统的单点防护能力形成组织和弹性,实现攻击者攻击一点即被感知,其载荷、战术将快速被捕获转化为情报共享,快速形成其他节点的防御能力。正是在这个大趋势下,国际传统的Big AV企业依托在恶意代码检测和内核主防的深刻积累,继续保持自己的强势存在。更使CrowdStrike实现了快速的发展崛起。而本次事件的关注点,不应仅仅放在安全产品自身安全性这一视角上。而更要关注我国长期存在的,不够重视主机系统侧安全能力建设、缺乏投入而带来的低效防护问题才是我们面对的显示问题。一些场景下,现实场景下是终端系统感染式病毒、蠕虫、宏病毒事件此起彼伏,而规划中却又在讨论着未知检测、APT防护和人工智能。部分主机安全产品缺少可靠的恶意代码检测能力,为降低成本,普遍采用检测能力严重不足的开源反病毒引擎ClamAV;甚至忽视供应链风险,在没有商业授权下,直接二进制嵌入国外反病毒引擎。部分产品缺少有效的驱动防护和阻断机制,只能通过少数Ring3 HOOK采集信息,基本无法看到隐蔽攻击行为。在主机配置加固方面,很多产品只能管理几十个配置点,而相比之下,美方STIG的安全规范,平均每种操作系统的安全配置点已达600多个。面对这种差距,对CrowdStrike开启嘲讽模式是没有意义的,反而应该正视在主机安全侧普遍存在的防护缺失问题。安全防护能力必须在系统侧持续强化,必须构建最小化的安全边界,堆砌盒子的方式越来越难以达成防御价值,伴随先进计算架构,将系统安全和威胁检测能力深度融合才是安全的未来。

3、安全产品,包括安全产品的研发环境和全生命周期需要被高度重视:由于应用软件和平台具有更高的用户可见性,关系用户业务连续性,因此网络管理者往往更关注应用软件特别是平台系统的更新测试和部署流程。而安全软件为对抗威胁,对抗部署后的能力衰减,需要更高频度的升级,类似病毒库需要高频的升级,策略库、漏洞库也需要更新迭代。由于这些升级,基本上都在后台自动化运行,往往容易成为自身测试的盲点,客户侧场景下的黑箱。由于安全产品具备安全功能,容易给用户带来信任感,但安全产品的安全功能和安全产品本身的安全的并不等价,如果安全厂商不重视自身的产品的安全性,越多的功能则会带来更大的不安全但与此同时,也建议用户,不因为本事件对能力升级带来过度恐慌,从而拒绝升级。安全软件如果不能及时升级,会导致相对威胁演进,监测防护能力快速衰减。这就给攻击突防带来了更大的机会窗口,全面提升攻击者的成功率,导致用户在规避偶然性风险的同时,导致了必然性风险。

4、驱动级主防是必须的,但需要更加可靠健壮安全:从物理主机到虚拟化的防护来看,尽管出现了这样重大的安全事件,我们依然坚信驱动级主防是必须的。基于驱动和内核模块进行安全防护虽然确实有更大的导致系统可靠性的风险,但内核级防护的安全稳定性,应通过更自动和全面的测试等来保障,而非因噎废食。如果没有内核级的主防,仅靠Ring3层面的HOOK和采集点,不但几乎很难拦截和阻断威胁,甚至无法实现有效的威胁感知,并可能很容易被攻击者删除或卸载。这种防护虽然一定程度上降低了系统出现底层故障的风险,但却将客户场景带入到随时可能被攻击者击穿的状态中。系统安全产品的Agent应实现更好的积木化,可以根据用户的防御能力和资源利用情况,让用户在底层防护、或轻量监测中可以选择,而不是借此放大用户对驱动级主防的恐惧感,而将用户引入弱防御的风险境地。当然我们也同样认为驱动级主防的设计、实现和规则运营,必须高度谨慎,要将尽可能多的威胁拦截在运行之前,而尽量避免进入到内存对决状态,这也是我们执行体治理理念的重要导向

5、现代计算结构有可能进一步从虚拟化向容器前移:在工作负载的解决方案中,虚拟化方案是相对较重载的,一旦出现底层安全问题,则难以修复。例如本次事故中的公有云虚拟机即使重启后,也会再次蓝屏,因无法连接远程桌面,也自然无法采取进入安全模式的方式恢复。相比来看,容器+金丝雀发布的组合,则相对能减少更新/部署故障。预测在本次事件后,除数据中心和边缘云外,独立工作负载使用容器技术的进程,会大幅提速。而虚拟化支持相对不够理想的信创架构来说,是一个利好。但与此同时,简单的依托物理主机安全平移到虚拟化中来支撑云解决方案的传统端点安全厂商,则面临难以满足容器安全需求的新挑战。始终跟随先进计算架构的演进、防护先进计算架构,是安全厂商基业长青的重要保障。

6、我们没有心存侥幸的资本:美国寡头资本和政客竭力在网络安全问题上反复抹黑中国,推动中美脱钩,持续在中美网信产业间制造裂痕,这使网络安全产业已经不可逆的在走向阵营化。特别是CrowdStrike反复参与抹黑中国的活动,在面对本次重大全球事件中也显示出冷漠和傲慢,让我们对其有很大的反感情绪。但我们依然认为,虽然发生了如此严重的事件,不能掩盖CrowdStrike在产品研发和运营层面有着超强实力,其依然是国际最优秀的安全企业之一。安天作为同样以恶意代码检测分析为能力基本面、以平台+AI赋能为运行支撑、以主机系统侧安全为基石场景的安全企业,面对国际同行的发生重大事件,我们没有幸灾乐祸的资本,而必须将本次事件视为产业的共同教训。系统安全是一种和保护对象深度耦合的产品形态,我们将保持对用户场景更深的敬畏。而对中国网络安全产业来说,这一次灾难发生于身外,并非说明我们通过了“大考”,只能说:真正需要我们应对的风险,还潜伏在不远的未来。也相信投身系统安全的同仁们都勇于积极应对系统安全面临的巨大挑战,致力于研发创造和运营先进安全能力。我们不应因高水平驱动和内核模块防御有极高稳定性、可靠性要求而退缩,转而炒作轻量级Agent等概念;不应因强化自身防御环境和全生命周期的代码安全需要巨大投入而躲避必须的建设成本。更不应事不关己、自我标榜,甚至兴灾乐祸;对我们自己来说,从别人的事件中找到我们自己的改进点,在继续提升系统侧安全能力和防护效果的同时,持续强化自身的安全左移、协助客户完善能力分发运行流程,才是负责任的网安企业必须担当的责任!

而从另一个角度看,国内政企机构有庞大的Windows主机用户基数,能在这样的大规模事件中几乎未受到波及,正说明中国网络安全产业和技术自立自强的重大意义。虽然中国网安产业体系在市场尚未充分发育时,陷入了低水平、过饱和竞争的焦灼状态,但在发展新质生产力征程中,我们必将成长为具有决定性的强大产业力量。


风险检测能力与系统 Hook 深度在一定程度上是成正比的,这是一种平衡,没有完美的选项,很多所谓的轻量级 Agent ,无非就是牺牲了内核态的检测能力,只做用户态监控,这会导致真正面临一些黑客攻击时极易被绕过,是一种病态的舍本逐末的追求,安全产品真正应该做的是尽量采用类似 ebpf 的内核态技术,在保证检测能力的前提下降低对客户的环境影响,也希望这次 crowdstrike 事件的发生能推动 win ebpf 技术的发展。


不蓝屏的安全软件一定不是好产品

一个检测能力强、安全效果明显、响应实时、漏报少、准确率高的,终端安全产品,(无论是 DLP、EDR、杀软(AV),还是透明加解密),其渗入系统驱动层就越深、越复杂。

常在河边走,哪能不湿鞋。因此越是能力强的终端安全产品,其开发和使用过程中,遇到蓝屏的概率就越大,这是无法改变的事实。最终的结果就是稳定性在 99% 的小数点之后,再多加几个 9 而已,是稳定性为 99%,还是 99.99%。

稳定性,是终端安全软件在其安全能力之外的,最为重要的能力了

(对于大部分安全风险/需求没有那么强的企业来说,对稳定性的要求可能比对安全性的要求还要高,一方面是面临的安全对手并没有那么高深,对系统底层的hook要求并没有那么高,可能上层用户态的做好了也就基本满足需求了,另一方面是自研能力没那么强,没办法做到既要安全又要稳定的效果,而且话说回来,强如CrowdStrike都能出现这种问题,你觉得自研或是采买其它家安全软件就能完全规避得了这种问题吗?)

参考链接:

CrowdStrike导致大规模系统崩溃事件的技术分析 (2024年07月21日 05:00) #理性、专业和全面的深入解读
https://mp.weixin.qq.com/s/UWkZXw7ZKDY662A3RnlSSw

百家|张美波:深度解密 CrowdStrike 宕机事件 (2024年07月22日 16:45)
https://mp.weixin.qq.com/s/vVi7m_WCdfTLOAtAFct3XQ

让全球电脑蓝屏两次,这个男人完成了史诗级成就。 (2024年07月23日 00:00)
https://mp.weixin.qq.com/s/QvNtopNX7vKLa17PDdmm0Q

CrowdStrike史诗级蓝屏,到底怎么破? (2024年07月20日 00:00)
https://mp.weixin.qq.com/s/ZJW9GRyd35pjSjsgVPomWg

REMEDIATION AND GUIDANCE HUB: FALCON CONTENT UPDATE FOR WINDOWS HOSTS #CrowdStrike的官方说明
https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/

CrowdStrike PIR Executive Summary
https://www.crowdstrike.com/wp-content/uploads/2024/07/CrowdStrike-PIR-Executive-Summary.pdf

Technical Details: Falcon Content Update for Windows Hosts
https://www.crowdstrike.com/blog/falcon-update-for-windows-hosts-technical-details/

Named Pipes
https://learn.microsoft.com/en-us/windows/win32/ipc/named-pipes

Helping our customers through the CrowdStrike outage
https://blogs.microsoft.com/blog/2024/07/20/helping-our-customers-through-the-crowdstrike-outage/

协助客户解决 CrowdStrike 引发的故障 #微软的声明
https://news.microsoft.com/zh-cn/%e5%8d%8f%e5%8a%a9%e5%ae%a2%e6%88%b7%e8%a7%a3%e5%86%b3-crowdstrike-%e5%bc%95%e5%8f%91%e7%9a%84%e6%95%85%e9%9a%9c/

Introducing Windows Insider Channels
https://blogs.windows.com/windows-insider/2020/06/15/introducing-windows-insider-channels/

KB5042421: CrowdStrike issue impacting Windows endpoints causing an 0x50 or 0x7E error message on a blue screen
https://support.microsoft.com/en-us/topic/kb5042421-crowdstrike-issue-impacting-windows-endpoints-causing-an-0x50-or-0x7e-error-message-on-a-blue-screen-b1c700e0-7317-4e95-aeee-5d67dd35b92f

=END=


《 “2024年CrowdStrike导致的Windows系统大规模蓝屏事件整理” 》 有 2 条评论

  1. CrowdStrike 类终端安全软件依赖系统驱动,终究是要蓝屏的
    https://mp.weixin.qq.com/s/gkvVqk570VcbpbxKvtPJNg
    `
    1. Blue Screen of Death, BSOD

    Windows 蓝屏的专业叫法是“蓝屏死机”(Blue Screen of Death,简称BSoD)。这一术语被定义为当 Microsoft Windows 崩溃或停止执行(由于灾难性的错误或者内部条件阻止系统继续运行下去)时所显示的蓝色屏幕。

    蓝屏死机(BSoD)是 Windows 操作系统中比较严重的一种错误状态,表明系统无法从一个系统错误中恢复过来。

    2. 不蓝屏的安全软件一定不是好产品

    **一个检测能力强、安全效果明显、响应实时、漏报少、准确率高的,终端安全产品,(无论是 DLP、EDR、杀软(AV),还是透明加解密),其渗入系统驱动层就越深、越复杂。**

    **常在河边走,哪能不湿鞋。因此越是能力强的终端安全产品,其开发和使用过程中,遇到蓝屏的概率就越大,这是无法改变的事实。最终的结果就是稳定性在 99% 的小数点之后,再多加几个 9 而已,是稳定性为 99%,还是 99.99%。**

    **稳定性,是终端安全软件在其安全能力之外的,最为重要的能力了**,从上面表格中可以看出来,即使稳定性做到了 99%,也依然是无法交付客户使用的,试想一下如果一个企业每天有上百台电脑蓝屏,那么不仅企业业务大受影响,企业的 IT 和安全团队,几乎要被逼死。

    **而要想真实地(注意真实二字)提高产品稳定性,那么需要长期的用户积累和终端适配,以及完善的产品交付和升级配套服务,这都需要大量的时间积累和高昂的研发投入。**

    我并不是 CrowdStrike 粉,但就其全球如此大量的终端覆盖,和用户口碑,相信其实力是足够强大的,只是目前官方还未明确公布此次背后的那只扇动了翅膀的黑蝴蝶,到底在哪里。

    而为什么我又老是强调,安全要走到前台来让大众去检验,因为行业里滥竽充数的产品和团队确实不少,他们产品表面没出什么幺鹅子,看似能力过硬,也许真实的原因是安全能力差,走了旁路的模式绕过了驱动、甚至相关的安全功能都没有开启,自然也就不会出故障了。就像护网运动中关机、拔电源、把网站改成静态图片的方式一样,**不作为当然稳定**。

    3. 和系统底层纠缠过深也许真的不是最好选择

    本次全球事故发生后,网上最大的声音是关于国产化替代,站在国家战略层面这是无比正确的,避免类似国外安全软件(CrowdStrike)和操作系统(Windows)对我们自己的企业和 IT 造成大规模的伤害。

    但是站在网络安全从业者的角度上,我第一反应想到的是,安全软件能不能摆脱终端系统的限制。因为我们要打造一款好用,易用的安全产品,已经 [ 苦终端久矣 ]啊。

    1、操作系统本身限制安全软件

    为什么此次没有暴露苹果 Mac 系统的问题,因为一个安全软件要装到苹果电脑上,还能正常工作,也许比登天还难。不仅在于 Apple 系统本身不开放,还在于系统本身把各类权限都交到了用户手里,且以极其骇人听闻的语音道德绑架安全软件。如这样“xx 想要控制这台电脑”。这就是操作系统本身,对安全软件施加的限制。即使开放性强的 Windows,也可以调整接口政策和对接规范。

    2、耦合终端系统,要为每种操作系统独立开发软件
    同样的杀毒产品,Windows、Mac、Linux、iOS、Android 等等,都要单独开发,研发成本极高。且依据不同系统开放的能力,安全产品同样的功能在每个系统上都有差异。

    3、稳定性建设成本比安全能力建设还高
    耦合操作系统过于深入,安全软件要花大量的精力去做稳定性建设,甚至为了保持稳定性第一,随时要安全降级,牺牲安全保稳定。
    `

  2. 数据安全,走到前台来,不要再躲在背后
    https://mp.weixin.qq.com/s/iv211qezjNtm7iHJvHeECg
    `

    阳光是最好的防腐剂,路灯是最好的警察 —— 美国联邦最高法院大法官,路易斯·布兰代斯

    从某种意义上来说,中国的网安行业和中国足协有极为类似之处。中国的足球庭院深深,大门紧闭,院墙之内觥筹交错,院外概不知情。

    网络安全天然具有特殊性,隐蔽,因此往往容易出现裁判和运动员是同一个人的局面。

    到了年末,机构安全负责人如何向老板汇报一年的安全工作成果,告诉老板今年发现了多少个风险?不能这么简单,报太多风险不是正好显得安全工作没做到位嘛。要是老板再反问还有多少风险,是没有被主动发现的呢,这鬼知道啊;告诉老板今年上了多少安全设备,买了几个安全软件,安全水位获得极大提升?不行不行,那不就是告诉老板我一年都在花钱吗。

    **如何向老板证明自己的价值,真的是长期困扰网络安全从业者的哲学命题。因此“合规”和“大家都在做”真的就是救命稻草**,你告诉老板这是国家政策要求(合规),看他还能说什么;你再告诉他,大家都在做态势感知,咱们不做就落后了,只要兜里还有钱,老板也怕掉队,只能大笔一挥,去搞。

    **无论做了什么,最终评价安全成果的,也还是建设安全的人,这就是最大的矛盾。**

    **阳光照不到的地方,是不可能长出好东西的。**

    01/6 CRM 做得好不好,客户来评价,而不是 CRM 开发者

    一个企业想要采购一款 CRM 应用,市面上同质产品众多,要如何评估选择哪一个。方法很简单,联系 CRM 厂商,开几个试用账号给销售团队直接去用用。销售人员可一点不关心 CRM 是用 React 还是用 Vue 画的前端页面,也不在乎内置的客户线索是爬来的还是买来的,更不想听你吹牛背后用了 GPT 大模型还是 NLP 算法。

    客户销售团队只关心销售漏斗管理功能好不好用,客户线索里的关键联系人电话号码有没有,产品用起来卡不卡,产品价格厚不厚道。评价标准极其简单明了,产品一用高下立判。

    但是回到数据安全,就无比别扭。安全的目标是要保护每一个消费者,每一个员工所能接触到的数据的安全,相应的安全产品会安装到每一个员工的办公设备里,内置到每一个用户的手机应用里,但消费者和员工又都很难获得知情权,安全产品的评价标准还是掌握在安全人员手里。

    02/6 APP 隐私安全,已经前置和透明化

    在 APP 群魔乱舞的那段时光里,一个日历 APP 也能访问用户的麦克风,一个相册 APP 也要读取用户的通讯录,一个音乐 APP 也要和你视频通话。所有 APP 都强制性的要求获得用户的一切数据和权限,隐私协议无从谈起,安全说明爱咋咋地,应用场景要你管我。应用开发者还会郑重其事地告诉用户,我们无比重视用户隐私安全,我们在背后默默付出,保护用户数据。

    所幸这样的境况已经获得极大改善,应用开发者不再能任意妄为地索取用户数据和权限,按照个人隐私保护相关法律的规定,APP 必须有明确的隐私政策声明,必须获得用户主动授权,必须接受敏感权限的使用场景。用透明,来换回用户的隐私安全。

    就如同淘宝 APP 一样,内置了隐私模块,消费者可以主动查看 APP 使用和采集的各类数据,并能管理系统权限,甚至还能下载应用内个人的所有数据。隐私安全,终于走到了前台来。

    03/6 企业内,办公数据安全,还躲在背后

    企业员工办公的电脑,叫做 PC,Personal Computer,个人电脑。企业通过层层的安全加锁,试图将个人电脑转变为 IT 意义上的办公电脑,期望最大程度上保护终端设备上以文件为载体的数据资产,从而达到保护数据安全的目标。

    于是这台为个人而生的电脑里,被默默地安装上了各类安全软件,DLP、EDR、杀毒、透明加解密、上网行为管理、桌面管家、暗水印,默默地在背后保护企业和个人的数据资产。

    我们这里先不去讨论这些安全产品的防护效果到底如何,而是换个视角去看,到底谁在评价这些安全产品的能力。是开发这些产品的乙方安全厂商?还是购买这些产品的甲方安全团队?没错,目前只有这两者,他们既是缔造者,又是评价者。

    **当裁判和运动员都是自己的时候,结果是必然的,技术不可能有进步,产品不可能有突破,模式不可能有创新。**因此我们会看到当下还有前仆后继的团队从 0 开始做 30 年前就存在的 DLP,全民大搞数据分类分级,态势感知的牛还在继续吹。这些从西方舶来的内容,当再回到西方的环境里,早都是无人提、无人看的概念,多少是有点讽刺。

    04/6 **明水印的意义,远大于暗水印**

    假设一个企业内,有一半好人,一半坏人。坏人天天琢磨着怎么把企业内的数据给拿走,好人兢兢业业地为企业谋发展,我们有理由相信好人是愿意帮助企业去发现和阻止坏人。但前提是得给好人以通道,这个通道不是告密的某个渠道,而是把那些躲着阳光下面的安全产品,提溜出来,放在大众眼前,让所有人去使用去评价。能够做到吗?能!

    不要依赖暗水印,就用明水印。

    很多安全从业者或者企业老板,迷恋暗水印这东西。默默在内部系统页面和办公文档里嵌入肉眼不可见的标记,坐等员工拍照或者截图泄露后去追溯罪魁祸首。何苦要如此的钓鱼执法,明水印不好吗,明水印不能彰显企业的威严和对安全的严格要求吗。

    况且暗水印这一招只能用一次,只要有员工中招一次,那瞬间就提升了所有员工的反侦查意识,以后谁还会傻乎乎截屏直接发微博去,还不得拿 WPS 做个图片文字提取,再重新生成一张新图片。

    **就使用明水印吧,让所有人都知道这里不是法外之地,这里要重视数据安全。**如果有该加水印而没有加的地方,好的那一半员工也会告诉老板,这里应该补个水印。由此明水印的产品会不断进步,水印的大小,透明度,上下文环境的动态适配度,护眼模式的自动感知能力,统统都能提升。水印这个产品能不断进步,企业安全性也会不断提升。如果换为暗水印,什么好事都不会发生,这就是阳光的力量。

    05/6 管控的意义,远大于审计

    员工电脑里的监控软件,秉承的是“重审计,轻管控”的理念。我曾经挺支持这样的理念,因为背后支撑它的逻辑,是不影响员工办公效率,符合科技互联网公司自由开放的天性。

    DLP 已经过时了吗,该如何破局

    让我逐步抛弃这样理念的原因有三,一来是它默认了先泄露数据再追责这样极不负责任的态度;二来是它隐藏了安全人员把自己暴露到阳光下的胆怯;第三是因为它的缺陷实在太多,审计的覆盖率有可能只占全局的 10% 不到,也就是说有大量数据泄露的渠道未知,或者无法覆盖,比如电脑里装个虚拟机把数据传出去,浏览器里用插件把数据爬走,甚至直接用浏览器自身的云同步功能获取企业数据。

    **如果企业一开始选择的是管控的路线,透明地让企业员工感知到何可为,何不可为,员工并不会骂企业,且能很好接受。**在企业内,我们从来没有听说过华为的员工骂自家的安全团队,说他们管控太严,员工用笔记本都得申请,USB 都用不了。但反之,以开放和自由标榜自身的互联网企业,选择的是重审计的路线,员工由内到外无不充斥着责骂企业偷窥员工隐私,恶意监控员工行为的故事。

    **数据泄露时时刻刻都在发生,员工时时刻刻都在骂,这就是重审计轻管控的结局。**

    重管控,无论是采用华为的虚拟化(虚拟桌面办公)路线,还是政企的内外网隔离路线,亦或是其它方向。都能为员工很好接受,且能达到数据安全想要的结果,且能促进相应办公产品的创新与进步。华为的虚拟桌面技术,其能力已经在国内无出其二,这就是一切放到阳光下的好处。

    让数据安全产品走到前台来,企业内就让员工去评价好坏,企业外就让消费者用户去评价,**不要让安全再来评价安全,只有如此技术才能进步,产品才能创新**。
    `

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注