就在上周末,全球大量 Windows 用户因为资安软件 CrowdStrike 所出现的重大 Bug 而遭遇了严重的当机问题,其中甚至还包含了机场、医院、银行等公家单位,为民众带来了不小的影响。 然而,即使这次的事件确实十分严重,但绝大部分的用户都没有碰到任何问题,而根据微软近期公开的数据,实际受到此次事件影响的 Windows 设备其实仅占了整体的 1%。

1%这个比例看似不高,但依照Windows系统的全球市占率来看,这次事件也影响了高达了850万台相关装置,因此,微软承诺将会部署上百位Windows工程师和专家来与受到影响的消费者们合作,一同修复他们的装置。 微软也直接与 CrowdStrike 合作,一同制定解决方案,而这间资安公司也发布了额外的声明,详细说明了造成这场大规模当机事件的技术问题。
这一切问题的始作俑者,就是一个收录在CrowdStrike旗下Falcon平台最新更新的Config设置文件,这个文件存在的Bug造成了一个重大的逻辑错误,进而导致使用Falcon检测系统的Windows装置陷入了「死亡蓝白画面」(BSOD) 的当机循环。

这次的更新原本的目的为「锁定新观察到,且常受到 C2框架在网络攻击中所使用的恶意命名管道」,但在正式上线后,这个更新不但没有解决问题,而导致一些非常重要的基础设施陷入严重的问题,引发了巨大的连锁反应。
CrowdStrike 随后在后续的更新中修正了这个逻辑错误,而为软也释出了客户端恢复工具来移除问题。 在这个工具推出之前,管理员们需要以安全模式重启他们的 Windows 装置,或是恢复环境设置,并手动移除受 Bug 影响的文件。

然而,不少用户好奇存在如此重大错误的更新当初到底是如何像这样公开发布的,最终造成了有史以来最严重的大当机事件之一。 前微软工程师David W Plummer社交平台上发布了一则贴文,其内容比较了他任职于Windows团队期间的调试程序,以及这次事件之间的差异。
就以这一次的事件来说,问题就在于一个通过了 WHQL 测试的CrowdStrike 驱动程序,这个程序能够自行下载并执行未受到微软登记的 p-code,进而形成了一个安全上的漏洞。 基本上来说,即使这个经过第三方驱动程序确实受到了微软的认证,但确能够自行带来一些充满问题的更新。

这一次的事件导致了全球许多重要机构的 Windows 系统都陷入了严重的当机问题。 虽然近年来,微软经常因为服务器相关问题而受到批评,但这间超大型科技公司也因为这次的事件而再次成为头条新闻,很明显的,这对微软来说也不是一件光荣的事。 就以目前来说,这场事件造成的问题似乎至少已经顺利解决,但或许在未来针对第三方软件的更新进行任证时,微软团队也会更加谨慎。