كيف يمكن لمديري تكنولوجيا المعلومات الاستمرار في العمليات أثناء انقطاع الخدمة؟

ولساعات طويلة يوم الاثنين، وجد ملايين المستخدمين وأكثر من 1000 شركة أنفسهم غير قادرين على الاتصال بالإنترنت. وتعرضت منصات التواصل الاجتماعي Reddit وSnapchat، وكذلك البنوك Lloyds Bank وHalifax. حتى الأطفال تأثروا، مع توقف تشغيل الألعاب الشهيرة Fortnite وRoblox. توجهت السيناتور إليزابيث وارين (ديمقراطية من ماساشوستس) إلى X، وصف الحدث باعتباره حدثًا حطم “الإنترنت بالكامل” ودعا إلى تفكيك شركات التكنولوجيا الكبرى.
قال كوري بيك، مدير التقنيات السحابية في DataStrike ومهندس الحلول الأول السابق في AWS: “إن الشبكات هي بالتأكيد مكون أساسي لخدمات AWS”. “عندما تتعثر في منطقة مثل US-East-1، فإن التأثيرات تذهب إلى أبعد من ذلك بكثير؛ وتمتد عبر EC2، وS3، وDynamoDB، وRDS، وكل الخدمات التي تعتمد عليها تقريبًا.”
ومع ذلك، بالنسبة لكثيرين آخرين، كان الأمر كالمعتاد. وذلك لأن الانقطاع أثر على عملاء AWS فقط – وعملاء محددين. كان مصدر الانقطاع هو فشل DNS في مجموعة مركز بيانات AWS المعروفة باسم US-EAST-1. إنها أكبر مجموعات الموفرين، وهي التي تدعم الكثير من الوصول إلى الإنترنت في AWS – ولكن ليس كلها. ولم يتأثر أي شركة أو فرد يدير منتجات Microsoft أو Google على الإطلاق.
أدى الانقطاع إلى إطلاق محادثات جماعية، تتراوح من السرد القياسي حول الاعتماد المفرط على مقدمي الخدمة الفرديين إلى الحاجة إلى بروتوكولات اختبار أفضل قبل بدء التشغيل. وفي عالم مثالي، فإن هذا الحجم من الاضطراب لن يحدث مرة أخرى أبدا. لكن مدراء تكنولوجيا المعلومات لا يمكنهم الاعتماد على الأرقام المتقاطعة وسيناريوهات الأحلام. إنهم بحاجة إلى تحديد المسؤولية التي تقع على عاتقهم عندما يتعلق الأمر بالتغلب على انقطاع الخدمة في المستقبل – وتحديد ما إذا كانت مكاسب السرعة والكفاءة الناتجة عن استخدام مزود واحد ستفوق مخاطر التركيز من الاعتماد على بائع السحابة الرئيسي هذا.
التكرار مقابل المخاطر
وبينما ناقش السياسيون الاحتكارات واشتكى المستخدمون من عدم إمكانية الوصول إلى مواقع الويب، رأى قادة تكنولوجيا المعلومات في انقطاع الخدمة بمثابة دعوة لتحسين التكرار. والحجة واضحة تمامًا: من خلال بناء النسخ الاحتياطية والقدرة على تجاوز الفشل، يمكن للشركات توسيع اعتمادها على أي نقطة واحدة في البنية التحتية الخاصة بها. ويرى بعض الخبراء أن عدم القيام بذلك سيكون بمثابة العمل على الحافة.
وقال جون براون، كبير المحللين لحماية البيانات وعمليات تكنولوجيا المعلومات والاستدامة في Omdia: “قد يختار المقامرون المخاطرة بقدرات الأعمال الأساسية من خلال تشغيلها بطريقة محفوفة بالمخاطر”. “أنا شخصيًا، أنصح بالسلامة، حيث أن فشل تطبيق ضعيف الحماية ورفيع المستوى وذو مهام حرجة يمكن أن يؤدي إلى حدث توليد السيرة الذاتية، وهو ما يحاول معظمنا تجنبه. لا يوجد شيء أكثر أهمية من بيانات عملائك ومعاملاتك.”
قد يبدو هذا واضحًا، لكن آلاف الشركات ما زالت تفقد وظائفها الرقمية يوم الاثنين. لماذا لم يكونوا مستعدين بشكل أفضل؟ إحدى الإجابات هي أنه على الرغم من أن التكرار ليس بالأمر الجديد، إلا أنه ليس مثيرًا للغاية. في مجال مليء بالابتكار والنمو، يدور التكرار حول التباطؤ والتحقق من عملك واتخاذ الطريق الأكثر أمانًا. ليس من المستغرب أن تكون بعض الشركات أكثر حماسًا للاستثمار في قدرات الذكاء الاصطناعي الجديدة بدلاً من تنفيذ البروتوكولات الآمنة. كما أنه ليس خطأ بالضرورة.
وقال كريس هاتشينز، المؤسس والرئيس التنفيذي لشركة Hutchins Data Strategy Consulting: “في بعض الأحيان، يكون اللعب الأكثر ذكاءً هو قبول مخاطر التعطيل المحدودة وإعادة توجيه الموارد نحو الابتكار، مثل الذكاء الاصطناعي أو تحديث البيانات”. “ولكن يجب أن تكون مخاطرة مدروسة، وليست مخاطرة مفترضة.”
وفقًا لهتشينز، إذا كانت هناك مجالات من العمل يستطيع مدراء تكنولوجيا المعلومات تحمل تكاليف إيقافها مؤقتًا في حالة حدوث انقطاع نادر، فإن المكافآت من مصدر واحد – توفير التكاليف، والتكامل الأكثر إحكامًا والخبرة المتخصصة – قد تفوق المخاطر التشغيلية. وقد وافق تياجو أزيفيدو، مدير تكنولوجيا المعلومات في شركة OutSystems، على الحاجة إلى اعتبار ذلك بمثابة حساب مالي يتم إجراؤه على أساس فردي. وبدلاً من أن يكون متطلبًا افتراضيًا، قال إنه يرى التكرار كاستثمار مستهدف في المرونة. لا يحتاج مدراء تكنولوجيا المعلومات إلى حماية كل شبر من أعمالهم بنفس الدرجة، طالما يتم دعم المجالات الرئيسية بشكل كبير.
وقال: “يجب أن يعكس المدى مدى أهمية النظام: تستحق أنظمة الإنتاج أو الأنظمة التي تواجه العملاء تغطية متعددة المناطق أو متعددة المزودين، في حين أن بيئات التطوير والاختبار يمكن أن تتحمل فترات توقف قصيرة”. “الهدف ليس القضاء على جميع المخاطر، بل مواءمة الإنفاق على المرونة مع التكلفة المحتملة للاضطراب.”
رسم خريطة للمهمة الحرجة
ولتحديد أين ينبغي على مدراء تكنولوجيا المعلومات توجيه جهود التكرار، جادل قادة تكنولوجيا المعلومات بأنه يجب أن يكون هناك صدق وفهم حول جوانب البنية التحتية التي تعتبر أساسية بالفعل للعمليات التجارية. يمكن أن يحدث انقطاع الخدمة في أي وقت، سواء داخل الأنظمة الداخلية أو لدى أي مزود خارجي، مما يعني أن مدراء تكنولوجيا المعلومات لا يمكنهم تأخير اتخاذ الإجراء الاستراتيجي.
مع مرور الوقت، قد تتمكن الشركة من تقديم التكرار على مستوى أكثر شمولاً عبر جميع البنية التحتية، ولكن هذا قد لا يكون منطقيًا من الناحية المالية. وكما وصفها هيتشنز، فإن “التكرار غير المرتبط بهدف واضح للتعافي سرعان ما يتحول إلى ديون فنية”. لذلك، من الضروري أن يقوم مدراء تكنولوجيا المعلومات بمراجعة تبعيات أعمالهم، وتحديد نقاط الفشل الفردية، وطلب الأنظمة بناءً على تأثيرها على العمليات والثقة.
وأضاف: “من المهم الاستثمار حيث يخلق الفشل مخاطر حقيقية، وليس مجرد إزعاج بسيط أو ضجيج”.
سيبدو هذا مختلفًا بالنسبة للشركات ذات الأحجام المختلفة، ولكن بشكل خاص بالنسبة للشركات العاملة في مختلف القطاعات. تتطلب بعض الصناعات، مثل الرعاية الصحية أو التمويل، مستوى أعلى من الاستغناء عن العمالة في جميع المجالات لمجرد أن المخاطر أكبر؛ قد يكون لعدم القدرة على الوصول إلى سجلات المرضى أو المعلومات المالية تداعيات خطيرة على السلامة وثقة الجمهور، وهي أبعد ما تكون عن الإزعاج أو الإحباط.
ووصف براون المنظمات التي “ولدت في السحابة” بأنها معرضة للخطر بشكل خاص، في حين قال أزيفيدو إنه يرى المزيد من الضغط على الصناعات “التي تعمل دائمًا” مثل التجارة الإلكترونية. وقد تحتاج الصناعات الأكثر تنظيما أيضا إلى التعامل مع توقعات أكبر عندما يتعلق الأمر بالمرونة والتكرار؛ التمويل، على سبيل المثال. أصدر الاتحاد الأوروبي مؤخرًا قانون مرونة العمليات الرقمية (DORA) لضمان قدرة الكيانات المالية على “الصمود والاستجابة والتعافي” من الاضطرابات التكنولوجية.
مزود واحد، ولكن تبعيات متنوعة
في أعقاب انقطاع خدمة AWS، سارع النقاد إلى الدعوة إلى تنويع شركاء الإنترنت، مبشرين بالحاجة إلى وجود منافسين أقوى وأكثر عددًا لـ AWS. وكجزء من استراتيجيات التكرار الخاصة بهم، سيحتاج مدراء تكنولوجيا المعلومات إلى التحقق من مدى اعتمادهم على مقدمي خدمات محددين، حتى يتمكنوا من تحديد المخاطر التي يتعرضون لها في حالة انقطاع التيار الكهربائي.
لكن هذا ليس بهذه البساطة مثل تتبع عقود الطرف الثالث، وحساب عدد مرات ظهور اسم واحد، وتحويل بعض العمليات بعيدًا عن مقدمي الخدمة المهيمنين للغاية. إذا كانت إحدى المؤسسات قد دخلت في شراكة في الغالب مع مزود واحد، فمن المحتمل أن يكون ذلك لسبب وجيه. وكما أوضح هيتشنز، فإن العمل مع مزود واحد يمكن أن يؤدي إلى تسريع الابتكار وتبسيط الإدارة، وتوفير الرؤية والتكاملات الأصلية والأدوات الموحدة.
وأضاف: “الفائدة هي الكفاءة، والخطر هو التبعية”.
وأضاف أنه ليست لديه مشكلة مع استمرار مديري تكنولوجيا المعلومات في استراتيجيات المزود الفردي – طالما أنهم يحكمونهم “بأعين مفتوحة على مصراعيها”. من الناحية العملية، قد يتضمن ذلك بناء إمكانية النقل في البيانات، ووضع خطط الخروج وتجاوز الفشل، واختبار التعافي خارج النظام البيئي.
جادل براون بأن انقطاع الخدمة ليس في الواقع تعليقًا على مسألة المزود الوحيد في المقام الأول؛ لو قامت المؤسسات ببناء التكرار في أنظمتها البيئية ذات المزود الواحد، لكان بإمكانها تجنب معظم هذا الاضطراب. وذلك لأن مزودًا واحدًا لا يحتاج إلى مساواة تبعية واحدة. ومن خلال استخدام مناطق ومناطق توافر مختلفة، يمكن لمديري تكنولوجيا المعلومات نشر مخاطرهم. بعد كل شيء، أثر انقطاع AWS على US-EAST-1 فقط. وقال براون إنه يعتقد أن هذا النهج يوفر 99% من فوائد المرونة، في حين أنه أيضًا أكثر عملية وفعالية من حيث التكلفة من استراتيجية مقدمي الخدمات المتعددين.
وقال: “إن تجاوز الفشل عبر الموفرين يبدو رائعًا على الورق، ولكنه يقدم تعقيدًا كبيرًا”. “المفتاح هو تصميم الفشل ضمن النظام البيئي الذي اخترته.”




