CrowdStrike Güncellemesi Küresel Ölçekte Windows Sistemlerinde Büyük Kesinti

CrowdStrike Güncellemesi Küresel Ölçekte Windows Sistemlerinde Büyük Kesinti

CrowdStrike’un son güncellemesi, Windows sistemlerde önemli sorunlara yol açtı. 26 Haziran 2024’te yayınlanan algılama mantığı güncellemesi, Falcon sensörünün CPU’nun %100’ünü tüketmesine neden olan bir hata içeriyordu. Bu, dünya genelinde birçok sistemin çökmesine sebep oldu. CrowdStrike, güncellemeyi geri çekti ve sistemlerin normal çalışması için yeniden başlatılmasını önerdi. Sensörün kaldırılması veya güncellenmesi sorunu çözmediği için bu durum, hastaneler gibi kritik altyapıları da etkiledi ve bazı durumlarda yeniden başlatma işlemi de çözüm olmadı.

19 Temmuz 2024’te, CrowdStrike’un güncellemelerinden biri, dünya genelinde birçok Windows sistemi üzerinde ciddi problemlere yol açtı. Bu güncelleme, CrowdStrike’un EDR (Endpoint Detection and Response) çözümleriyle ilişkili sürücülerde (csagent.sys veya C-00000291*.sys) bir hata içeriyordu. Hatanın sonucu olarak, etkilenen sistemler “blue screen of death” (BSOD) hatası vererek doğru şekilde başlatılamadı.

Sorunun Ayrıntıları:

  • Etki Alanı: Sorun, hem sunucuları hem de iş istasyonlarını etkiledi. Özellikle kritik altyapı bilgisayarları, havaalanları ve hava yolları gibi alanlarda büyük aksamalara neden oldu.
  • Çözüm: Sorunu çözmek için, etkilenen sürücülerin Güvenli Mod (Safe Mode) kullanılarak silinmesi gerekmektedir. Ancak, birçok kurumsal kullanıcı bu işlemi gerçekleştirebilecek erişim haklarına sahip olmadığından, şirket çapında yönetici müdahalesi gerekmektedir.

Kullanıcılar ve Yönetici Müdahalesi:

Birçok kurumsal kullanıcı, gereken erişim haklarına sahip olmadığından, bu işlemi gerçekleştirebilmek için sistem yöneticilerinin manuel olarak müdahale etmesi gerekecek. Bu müdahale, özellikle geniş ölçekli organizasyonlar ve kritik altyapılar için ciddi bir iş yükü ve zaman kaybı anlamına gelmektedir.

Bu sorun, CrowdStrike tarafından fark edildikten sonra ilgili sürücülerin kaldırılması gerektiği ve bu işlem için sistemlerin güvenli moda alınması gerektiği belirtilmiştir. Ancak, kullanıcıların büyük çoğunluğunun bu işlemleri gerçekleştirebilmesi için gerekli erişim haklarına sahip olmaması, sorunun çözümünü zorlaştırmıştır.

Çözüm Adımları  için ;

  1. Boot Windows into Safe Mode or the Windows Recovery Environment
  2. Navigate to the C:\Windows\System32\drivers\CrowdStrike directory
  3. Locate the file matching “C-00000291*.sys”, and delete it.
  4. Boot the host normally.

https://supportportal.crowdstrike.com/s/article/Tech-Alert-Windows-crashes-related-to-Falcon-Sensor-2024-07-19

 

Bu tarz  bir güncelleme uygulanmadan önce change management (değişim yönetimi) sürecinin uygulanması son derece önemlidir. Change management, bir değişikliğin etkilerini değerlendirme, riskleri belirleme ve bu değişikliklerin düzgün bir şekilde uygulanmasını sağlama sürecidir. Bu süreç, özellikle kritik sistemlerde ve geniş ölçekli dağıtımlarda büyük önem taşır. CrowdStrike’un yaşadığı bu güncelleme sorununda, change management sürecinin yeterince etkin bir şekilde uygulanmadığı görülmektedir.

Change Management Sürecinin Önemi:

  1. Risk Değerlendirmesi: Güncellemenin potansiyel etkilerini değerlendirme ve olası riskleri belirleme.
  2. Test Ortamı: Güncellemenin öncelikle bir test ortamında, sınırlı bir cihaz grubunda test edilmesi.
  3. Geri Dönüş Planı: Güncelleme sırasında veya sonrasında sorunlar yaşanırsa uygulanacak geri dönüş planlarının hazırlanması.
  4. Kullanıcı Bilgilendirmesi: Kullanıcıları, olası kesintiler ve değişiklikler hakkında önceden bilgilendirme.
  5. İzinler ve Erişim Hakları: Gerekli erişim haklarının ve izinlerin sağlanması.

CrowdStrike Örneği:

CrowdStrike’un güncellemesi, gerekli change management adımları tam anlamıyla uygulanmadan hayata geçirilmiş gibi görünüyor. Sorunun boyutu ve etki alanı göz önüne alındığında, bu tür büyük değişikliklerin daha dikkatli bir şekilde yönetilmesi gerektiği açıktır. Özellikle kritik altyapıları etkileyen bu tür güncellemeler, hem sistemlerin hem de kullanıcıların güvenliğini ve sürekliliğini sağlamak için dikkatle planlanmalıdır.

Öneriler:

  • Daha Geniş Test: Güncelleme öncesinde daha geniş bir test kullanıcı grubunda testler yapılmalıydı.
  • İletişim: Kullanıcılar, olası kesintiler ve güncelleme süreci hakkında önceden bilgilendirilmeliydi.
  • Hazırlık: Sorun çıkması durumunda hızlı müdahale edebilmek için önceden planlar hazırlanmalıydı.

Change management süreçlerinin etkin bir şekilde uygulanması, benzer sorunların gelecekte önlenmesine yardımcı olabilir ve sistemlerin kesintisiz ve güvenli bir şekilde çalışmasını sağlar​.