كيفية تقليل وقت توقف تكنولوجيا المعلومات
يعد تقليل وقت توقف تكنولوجيا المعلومات أمرًا بالغ الأهمية لضمان سلاسة العمليات التجارية وتقليل فقدان الإنتاجية ومنع الأضرار المالية. ومن خلال اعتماد أدوات المراقبة والصيانة الدورية وأنظمة الاستجابة التلقائية للحوادث، يمكن للمؤسسات تقليل حالات انقطاع الخدمة غير المخطط لها ووقت التعافي بشكل كبير.
لتحسين التعاون بين الأقسام ومنع تعطل نظام تكنولوجيا المعلومات، قم بإنشاء خطوط واضحة للمسؤولية وخطة محددة جيدًا تعالج الأسباب الجذرية لتوقف العمل. ومن المهم بنفس القدر التأكد من أن كل فريق يفهم مسؤولياته المحددة وكيفية تنفيذ الحلول لمعالجة هذه الأسباب بشكل فعال.
يقول ديريك أشمور، مدير تحويل التطبيقات في Asperitas Consulting، في مقابلة عبر البريد الإلكتروني: “من الضروري إدراك أن الاستجابة السريعة لانقطاعات الخدمة تعتمد على وجود قنوات اتصال واضحة وتعاون فعال بين فرق العمليات والأمن”.
يقول أشمور إن ممارسات تكنولوجيا المعلومات النشطة ضرورية لتقليل وقت التوقف عن العمل والحفاظ على مرونة النظام. “إن أتمتة تغييرات البنية التحتية ونشر التطبيقات أمر أساسي لتقليل الأخطاء البشرية.”
ومن المهم بنفس القدر أتمتة اختبار البنية التحتية وتغييرات التطبيقات قدر الإمكان. يقترح أشمور تنفيذ المراقبة في الوقت الفعلي لبيانات القياس عن بعد من خلال أدوات المعلومات الأمنية وإدارة الأحداث (SIEM) لتحديد المشكلات والتهديدات بشكل فعال.
ويوصي أيضًا بإجراء تدريبات منتظمة على الاستجابة للحوادث، مثل هندسة الفوضى، التي تؤدي إلى حدوث أخطاء لاختبار مرونة النظام.
ويقول إنه يجب إجراء تحليل السبب الجذري بعد الحادث لمعالجة الأسباب الجذرية والتخفيف منها. ويضيف: “يمكن للوحات التغيير أن تساعد الفرق على توصيل التغييرات القادمة بشفافية وتحديد التبعيات”.
خطط الاستجابة للحوادث بالغة الأهمية
بالنسبة للتدابير التفاعلية، تنصح أشمور بوضع خطة شاملة للاستجابة للحوادث مع مسارات تصعيد محددة بوضوح. ويقول: “إن أتمتة عمليات الاستجابة والاحتواء، مثل عزل الأنظمة المخترقة، يمكن أن يحسن بشكل كبير كيفية تعامل الفرق مع حالات انقطاع الخدمة أو أحداث تدهور الخدمة”.
يقول جون جوردون، الرئيس والمدير العام لشركة HP Managed Solutions، إنه يوافق على أنه لمنع توقف تكنولوجيا المعلومات عن العمل، فإن الخطوة الأولى هي الابتعاد عن العقلية التقليدية المتمثلة في “الدعم التفاعلي” حيث تتم معالجة المشكلات بمجرد ظهورها فقط.
ويقول عبر البريد الإلكتروني: “مع أدوات الذكاء الاصطناعي المتقدمة اليوم، والقياس عن بعد، والرؤى الاستباقية، ينبغي لنا أن نتعامل مع تكنولوجيا المعلومات بشكل استباقي”. “وهذا يعني المراقبة المستمرة حتى نتمكن من منع المشكلات قبل أن تنتشر على نطاق واسع.”
باستخدام الحلول المناسبة، يجب أن تكون فرق أمن تكنولوجيا المعلومات والعمليات قادرة على تتبع سلامة أسطولها أو الاعتماد على شريك موثوق يمكنه إدارته بالنيابة عنهم.
يقول جوردون: “نصيحتي لمدراء تكنولوجيا المعلومات هي تخصيص الموارد لمنع المشكلات قبل ظهورها”.
مقاييس لقياس النتائج
وفقًا لأشمور، فإن التركيز على مقاييس النجاح الرئيسية يساعد فرق تكنولوجيا المعلومات على الحفاظ على كفاءتها وتقليل وقت التوقف عن العمل.
يعد متوسط الوقت بين حالات الفشل (MTBF) ومتوسط وقت الإصلاح (MTTR) أمرًا بالغ الأهمية لفهم عدد مرات تعطل الأشياء ومدى سرعة إصلاحها.
يعد وقت الاستجابة للحوادث أمرًا بالغ الأهمية أيضًا، حيث تقلل ردود الفعل السريعة من تأثير انقطاعات الخدمة، في حين أن وقت تشغيل النظام هو مقياس رئيسي للموثوقية. يقول أشمور: “كلما ارتفعت نسبة وقت التشغيل، كان ذلك أفضل”.
وأخيرًا، يمكن أن توفر نتائج رضا العملاء نظرة ثاقبة حول كيفية تأثير فترات التوقف عن العمل على المستخدمين، مما يساعد الفرق على قياس مدى فعالية جهودهم.
يقول جوردون إن المقياس الآخر لقياس عائد الاستثمار في تقليل وقت التوقف عن العمل هو عدد تذاكر الدعم. ويقول: “إذا انخفضت طلبات الدعم، فهناك فرصة جيدة لتقليل وقت التوقف عن العمل بالنسبة للموظفين”.
القضاء على عمليات التسليم، والاستثمار في الوقاية
يقول ستيف وات، مدير تكنولوجيا المعلومات في Hyland، عبر البريد الإلكتروني إن التواصل والقضاء على عمليات التسليم هو مفتاح الكفاءة التشغيلية. ويقول: “يجب أن يكون فريق الاستجابة الخاص بك فريقًا مدمجًا منذ البداية مع مزيج من الأمن والبنية التحتية والتقنية وغير التقنية والقيادة”. “وفي الوقت نفسه، تحتاج إلى الحصول على الحجم المناسب حتى يتمكن الفريق من العمل بسرعة وفعالية.”
ويضيف أنه لا يوجد رقم سحري لذلك، لذلك يجب تطويره بهدف إنشاء فريق يمكنه العمل بشكل مستقل وبسرعة قدر الإمكان مع مرور الوقت. ويوضح قائلاً: “المفتاح هنا هو أن الفريق يحتاج إلى أن يكون قادراً على العمل بشكل مستقل”. “إذا كان عليهم التحقق مع العديد من أصحاب المصلحة المختلفين للعمل بناءً على المعلومات، فأنت تخسر المعركة بالفعل.”
ويقول إنه من المهم أن يكون لدى فرق الاستجابة تعريفات واضحة حول أولويات العمل وما ينبغي أن يوجه عملية صنع القرار.
على سبيل المثال، إذا كان هناك انقطاع كبير، فمن الأهم أن يتم توفير أنظمة المحاسبة أو تذاكر دعم العملاء عبر الإنترنت أولاً. يقول وات: “إن فهم تلك الأولوية وتدفق أعمالك أمر بالغ الأهمية في الاستجابة الكبيرة”.
من وجهة نظر جوردون، فإن منع المشكلات من الظهور بشكل استباقي هو عمل بدوام كامل ويتطلب استثمارًا. ويقول: “نحن نعمل باستمرار على تحسين ما يمكننا رؤيته، وما هي المشكلات التي يمكننا تحديدها، وكيف يمكننا أتمتة العلاجات لجميع عملائنا”.
اعتماد الأتمتة، الذكاء الاصطناعي
يوضح وات أن الأتمتة كانت أقرب إلى نموذج IFTTT (إذا كان هذا ثم ذاك)، حيث كانت الشركة تحدد بدقة معايير حالة الخطأ التي يمكن أن تؤدي إلى إجراء تلقائي – مثل انخفاض مساحة القرص، أو انخفاض الذاكرة، أو توقف الخدمة الاستجابة.
ويقول: “ما سيأتي هو قدرة الأدوات المستقلة على استخلاص المعلومات من الأنظمة والمساعدة في تشخيص وفرز تفاعلات الأنظمة الأكثر تعقيدًا والتي ربما كانت تحتاج إلى مهندس للتدخل”.
بالإضافة إلى الأتمتة، يتوقع أشمور أن ينمو استخدام الذكاء الاصطناعي في التنبؤ بالفشل ويصبح واسع الانتشار في مجال تكنولوجيا المعلومات. ويقول: “سوف يتوسع إلى ما هو أبعد من خوارزميات التنبؤ البسيطة للتعلم الآلي، وسيوفر التعلم الذاتي، مما يمكننا من التنبؤ بالفشل في المواقف التي لم نشهدها بعد”.
يوضح أشمور أن الأنظمة ستطبق أيضًا الذكاء الاصطناعي لتوفير الإصلاح الذاتي من خلال الاسترداد الآلي والمعالجة والقياس والتوزيع الذكي لأعباء العمل. ويقول: “سيتم استخدام الذكاء الاصطناعي لدعم القرار القائم على الذكاء الاصطناعي، والتوليد الآلي لقواعد اللعبة، والاستجابة للحوادث، وتحليل الأسباب الجذرية”.