A empresa de cibersegurança CrowdStrike culpou o problema no seu sistema de validação por ter causado a falha de milhões de dispositivos Windows, como parte de uma interrupção generalizada realizada.
“Na sexta-feira, 19 de julho de 2024 às 04h09 UTC, como parte das operações regulares, a CrowdStrike lançou uma atualização de configuração de conteúdo para o sensor do Windows para recolher telemetria sobre possíveis novas técnicas de ameaça”, disse a empresa em sua revisão preliminar pós-incidente (PIR).
“Estas atualizações são uma parte regular dos mecanismos de proteção dinâmica da plataforma Falcon. A problemática atualização de configuração do Rapid Response Content resultou numa falha do sistema Windows.”
O incidente afetou os hosts do Windows que executavam o sensor versão 7.11 e superior que estava online entre 19 de julho de 2024, 04h09 UTC e 05h27 UTC e recebeu a atualização. Os sistemas Apple macOS e Linux não foram afetados.
A CrowdStrike disse que fornece atualizações de configuração de conteúdo de segurança de duas formas, uma através do Sensor Content fornecido com o Falcon Sensor e outra através do Rapid Response Content que permite sinalizar novas ameaças utilizando várias técnicas de correspondência de padrões comportamentais.
Diz-se que a falha foi o resultado de uma atualização de conteúdo de resposta rápida contendo um erro não detetado anteriormente. Vale a pena notar que tais atualizações são entregues sob a forma de instâncias de modelo correspondentes a comportamentos específicos – cada um deles mapeado para um tipo de modelo único – para permitir uma nova telemetria e deteção.
As instâncias de modelo, por sua vez, são criadas utilizando um sistema de configuração de conteúdos, após o que são implantadas no sensor através da nuvem através de um mecanismo denominado Channel Files, que são finalmente gravados em disco na máquina Windows. O sistema inclui também um componente Validador de Conteúdo que realiza verificações de validação do conteúdo antes da sua publicação.
“O conteúdo de resposta rápida proporciona visibilidade e deteções no sensor sem exigir alterações no código do sensor”, explicou.
“Esta funcionalidade é utilizada pelos engenheiros de deteção de ameaças para recolher telemetria, identificar indicadores de comportamento do adversário e realizar deteções e prevenções. da CrowdStrike.”
Estas atualizações são depois analisadas pelo Interpretador de Conteúdos do sensor Falcon, que permite ao Sensor Detection Engine detetar ou evitar atividades maliciosas, dependendo da configuração da política do cliente.
Embora cada novo tipo de modelo seja testado quanto ao stress para diferentes parâmetros, como a utilização de recursos e o impacto no desempenho, a causa raiz do problema, de acordo com a CrowdStrike, pode ser rastreada até à implementação do tipo de modelo de comunicação entre processos ( IPC) a 28 de fevereiro de 2024, que foi introduzido para sinalizar ataques que abusam de pipes nomeados.
A linha temporal dos eventos é a seguinte:
- 28 de fevereiro de 2024 – CrowdStrike lança sensor 7.11 para clientes com novo tipo de modelo IPC
- 5 de março de 2024 – O tipo de modelo IPC passa no teste de stress e está validado para utilização
- 5 de março de 2024 – A instância do modelo IPC é libertada para produção através do ficheiro de canal 291
- 8 a 24 de abril de 2024 – Mais três instâncias de modelos IPC são implantadas em produção
- 19 de julho de 2024 – São implementadas duas instâncias de modelo IPC adicionais, uma das quais passa a validação apesar de ter dados de conteúdo problemáticos.
“Com base nos testes realizados antes da implementação inicial do tipo de modelo (em 05 de março de 2024), na confiança nas verificações realizadas no validador de conteúdos e nas implementações anteriores bem-sucedidas de instâncias de modelo IPC, estas instâncias foram implementadas em produção”, disse a CrowdStrike .
“Quando recebido pelo sensor e carregado no Interpretador de Conteúdos, o conteúdo problemático no Ficheiro do Canal 291 resultou numa leitura de memória fora dos limites, acionando uma exceção. Esta exceção inesperada não pôde ser tratada normalmente, resultando numa falha do sistema operativo Windows ( BSoD).”
Em resposta às amplas interrupções causadas pelo acidente e evitando que voltem a acontecer, a empresa sediada no Texas disse que melhorou os seus processos de teste e melhorou o seu mecanismo de tratamento de erros no Content Interpreter. Também está a planear implementar uma estratégia de implementação escalonada para Conteúdo de Resposta Rápida.
Também é recomendado que os clientes revejam o seu uso de service tags e garantam que adotaram proteções de segurança adequadas para autenticar apenas tráfego de rede confiável para service tags.