عواقب إضراب الجماهير – الدروس المستفادة من أجل التعافي في المستقبل
ما الذي تعلمناه في أعقاب انقطاع خدمة الإنترنت بسبب الشاشة الزرقاء – وهو أكبر انقطاع لتكنولوجيا المعلومات في التاريخ حتى الآن؟
في الأسبوع الماضي، تعطلت 8.5 مليون جهاز يعمل بنظام التشغيل ويندوز في جميع أنحاء العالم، بما في ذلك أجهزة الكمبيوتر المهمة لشركات الطيران الكبرى، بسبب تحديث سيئ. وفي حين تعافت العديد من المؤسسات، فإن قادة تكنولوجيا المعلومات لديهم نصيبهم العادل من التفكير في المضي قدمًا.
وتستمر التفاصيل في الظهور حول الانقطاع الشامل الذي يُعزى إلى حد كبير إلى تحديث برنامج Falcon Sensor التابع لشركة CrowdStrike والذي حدث خطأ فيه – مع توجيه بعض الأصابع إلى سياسات التكنولوجيا من المفوضية الأوروبية بالإضافة إلى بعض نظريات المؤامرة الخارقة للطبيعة.
لا يمكن إلقاء اللوم هنا على بيج فوت ووحش بحيرة لوخ نيس، ولن يتم العثور على الطريق إلى الأمام من خلال قراءة أوراق الشاي.
قد يكون ما سيأتي بعد ذلك للمؤسسات المتضررة من الانقطاع أكثر تعقيدًا من مجرد تصحيح أو إعادة تشغيل. خطوط دلتا الجوية ظلت تعاني من انقطاع التيار الكهربائي لمدة خمسة أيام تقريبًا بعد الحادث الأولي، أطلقت وزارة النقل الأمريكية تحقيقا في استمرار انقطاع رحلات الطيران لشركة الطيران وطريقة تعامل دلتا مع خدمة العملاء.
قدمت CrowdStrike خطوات الإصلاح، واعتذارًا من الرئيس التنفيذي جورج كورتز، بشأن الحادث مع التحديثات المنشورة على مركز المعلوماتقد يترافق العثور على مسار للتعافي مع الاستعداد لانقطاعات محتملة في المستقبل، على الرغم من ندرة مشكلة CrowdStrike.
كيف وصلنا إلى هنا
يقول إريك جرينير، المحلل الرئيسي في جارتنر، إن التقاء غير عادي للعوامل أدى إلى الانقطاع. ويقول: “إن هذا يعني تصادم العوالم في الأساس. والسبب وراء التأثير الكبير هو أن ويندوز هو نظام التشغيل الأكثر شعبية في العالم. وكراود سترايك هي واحدة من أكثر أدوات أمن نقاط النهاية استخدامًا. لذا، عندما تواجه كراود سترايك مشكلة بسبب تحديث سيئ، يكون التأثير كبيرًا”.
إن برنامج Falcon Sensor من شركة CrowdStrike يهدف إلى اكتشاف ومنع التهديدات التي تتعرض لها أنظمة المستخدمين بما في ذلك النواة، والتي يحتاج البرنامج إلى الوصول إليها من أجل أداء وظائفه. وعلى الرغم من انتشار انقطاع الخدمة الأسبوع الماضي، يقول جرينير إن بائعي البرامج الآخرين يجب أن يقيّموا إجراءات ضمان الجودة وسير العمل لديهم أيضًا. “إن شركة CrowdStrike ليست الشركة الأولى التي ترسل تحديثًا سيئًا، وأستطيع أن أقول بثقة تامة إنهم لن يكونوا الشركة الأخيرة على الأرجح”.
يقول جرينير إن ما زاد من تعقيد المشكلة هو حقيقة أن الإصلاح كان عبارة عن إصلاح يدوي. “كنا بحاجة إلى استخدام لوحة المفاتيح. لا يوجد حاليًا خيار للإصلاح عن بُعد، ثم كنت بحاجة إلى امتيازات مرتفعة اعتمادًا على كيفية قيامك بذلك”.
كانت بعض المؤسسات بحاجة إلى مساعدة إضافية للعودة إلى العمل. يقول جرينير: “لمزيد من تفاقم المشكلة، إذا كان لديك تشفير كامل للقرص، والذي أزعم أن معظم المؤسسات تستخدمه، فستحتاج إلى مفاتيح استرداد لهذا التشفير، سواء من خلال BitLocker أو بائع آخر لتشفير القرص بالكامل، وقد لا تكون المؤسسات مستعدة لكل ذلك”.
يقول جرينير إن الدرس الذي قد تتعلمه المؤسسات هو ضرورة مراجعة خطط استمرارية الأعمال للتأكد من تحديثها وصلاحيتها واختبارها. وبينما تستكشف الشركات ما كان بوسعها أن تفعله بشكل مختلف، لا يزال هناك المزيد من التفاصيل التي يتعين اكتشافها فيما يتصل بهذا الحادث. ويقول: “أعتقد أننا بحاجة إلى الانتظار لنرى من شركة CrowdStrike تحليلاً كاملاً للسبب الجذري فيما يتصل بالمشكلة في الواقع. يمكننا أن نتكهن … لكنني أعتقد أنه سيكون من الظلم أن نبدأ في الحديث عن الأمر دون أن يقدموا تحليلاً حقيقياً للسبب الجذري”.
ليست مجرد قضية إضراب جماهيري
قد تكون CrowdStrike هي مركز الانقطاع، ولكن التحديث السيئ من مقدمي خدمات آخرين بنفس مستوى الوصول إلى النواة قد يكون له تأثير مماثل. يقول جون رافين، المدير الإداري لتحويل السحابة في Microsoft: “قد يحدث هذا لأي مزود أمان ببساطة بسبب بنية Windows نفسها”. تيك سيستمز“الطريقة الوحيدة لتشغيل CrowdStrike وأنواع أدوات الأمان هذه هي الحصول على هذا النوع من الوصول المتميز. يتمتع برنامج تشغيل النواة بوصول حميمي إلى أكثر أجزاء النظام الداخلية، لذا عندما يتصرف بشكل غير صحيح، فإنه يواجه مشكلة.”
يقول رافين إن مايكروسوفت حاولت القيام بالشيء الصحيح منذ سنوات عديدة من خلال تجريد النواة بعيدًا عن الأطراف الثالثة ولكن تم منعها من قبل الهيئات التنظيمية. ويقول: “كانوا على وشك فرض واجهة برمجة التطبيقات على كل شيء وإجبار الجميع على المرور عبر مستوى واجهة برمجة التطبيقات الأمنية بدلاً من ذلك، ولكن تم اعتبار ذلك مناهضًا للمنافسة لشركات الأمن الأصغر حجمًا”.
مايكروسوفت إلقاء اللوم على المفوضية الأوروبية في انقطاع الخدمة، مستشهدًا باتفاقية عام 2009 التي تلزم الشركة بمنح الوصول إلى نواة النظام لمقدمي خدمات الأمان من جهات خارجية. وكان من المفترض أن تفتح هذه الاتفاقية المجال أمام المنافسة أمام شركات أخرى، على الرغم من أن مايكروسوفت تقدم بديلها الأمني الخاص ببرنامج Windows Defender.
ويشير رافين إلى أن مستخدمي آبل لم يعانوا من انقطاع الخدمة رغم وجود إطار عمل Falcon Sensor لنظام التشغيل هذا لأن آبل أوقفت استخدام ملحق الوصول إلى النواة. ويقول: “لقد وضعوا طبقة تجريد في المقدمة تسمى ملحقات النظام. لقد فعلوا ذلك خصيصًا لإطار عمل أمني جديد، وهو ما حاولت مايكروسوفت القيام به على وجه التحديد منذ سنوات، ولكن لسبب ما، نجحت آبل في ذلك”.
لا يزال يتحرك بسرعة، ولا يزال يكسر الأشياء
يقول سوبودا كومار، أستاذ الإحصاء والعمليات وعلوم البيانات بجامعة تيمبل، إن العقلية السائدة في مجال تكنولوجيا المعلومات التي تتجه إلى تقليل التكاليف وعدم إهدار الموارد أو الوقت، بهدف أن تسير الأمور بسلاسة، ربما ساهمت في انقطاع خدمة CrowdStrike. ويضيف: “لا يمكننا أن نعيش في عالم يقتصر على خفض التكاليف والاعتماد فقط على أن كل شيء سيعمل على ما يرام. يتعين علينا تضمين مثل هذه الأشياء في عملياتنا، ونحن بحاجة إلى وضع خطة حولها”.
كما أن كومار هو المدير المؤسس لمركز تحليلات الأعمال والتكنولوجيات التخريبية في كلية فوكس للأعمال بجامعة تيمبل. ويقول إنه على الرغم من وجود آليات آلية يمكنها التراجع عن التحديثات السيئة، فإن العديد من الشركات تتجنب مثل هذه الموارد لأنها قد تتطلب مساحة كبيرة. ويقول كومار أيضًا إنه يجب تحديث أدوات المراقبة أو الاستثمار فيها بشكل أكبر، مما قد يؤدي إلى إدخال أدوات تعتمد على الذكاء الاصطناعي في المزيج، للكشف عن مثل هذه المشكلات. ويقول: “الأمر الأكثر أهمية هو أننا بحاجة إلى أنظمة زائدة عن الحاجة حتى نتمكن من التحول إليها بسرعة كبيرة”، وهو ما يعترف بأنه قد يكون مكلفًا للغاية.
يقول ويل جلازير، مدير أبحاث التهديدات في شركة أمان واجهة برمجة التطبيقات وإدارة الروبوتات، إن الاندفاع العاجل للعثور على إجابات وإلقاء اللوم وسبل التعافي من الانقطاع أدى إلى مطاردة سيارات الإسعاف. تسلسليقول جلازير إنه على الرغم من أن شركة CrowdStrike تركز على أمن نقاط النهاية وتغطي شركته حماية واجهات برمجة التطبيقات في الشبكة، إلا أنه بحث عن أوجه تشابه. ويقول: “تدور جميع الدروس الموثوقة المستفادة حول نشر القواعد والتحديثات والتوقيعات، وهو النوع من الأشياء التي يتعين علينا القيام بها في مجال الأمن لمواكبة الأشرار. ولكن من الواضح أن شيئًا ما لم يكن على ما يرام في هذه العملية برمتها”.
كانت هناك تكهنات بأن الطلب على السرعة في النشر ساهم في الانقطاع، مما دفع التحديث إلى الخروج قبل اكتشاف الأخطاء في النهاية. إن الضغط الناجم عن السرعة في التكنولوجيا ليس بالأمر الجديد – فهو يعود إلى عصر “التحرك بسرعة وكسر الأشياء”، والذي زعم أنه انتهى.
يقول جلازير: “أشعر أن الأمر أشبه بالصراع الأبدي، وأنك ستتعرض للعقاب إن فعلت ذلك، وإن لم تفعله، فستتعرض للعقاب إن لم تفعله. وإذا أثقلت شركة CrowdStrike كاهلها بالإجراءات ولم تقدم حماية موثوقة وفي الوقت المناسب للتهديد، وتعرض عملاؤها للاستغلال ـ فإن الأمر يختلف تماماً مع عملائها، حيث لا يزال الناس يلاحقونهم على الأرجح للحصول على تعويضات. ويحدث نفس النوع من الألم، ولكن من منظور سلبي زائف، “كما تعلمون، لم يلتقط نظامنا ما كان من المفترض أن يلتقطه”.