أخبار التقنية

مقاييس محرك الأقراص الثابتة ولماذا لا يكون متوسط ​​وقت الفشل مفيدًا للغاية


في هذا البودكاست، نتحدث مع راينر كايسي، المدير الأول لتطوير الأعمال لمحركات الأقراص الثابتة في شركة Toshiba Electronics Europe، حول مقاييس محرك الأقراص الثابتة (HDD)..

وعلى وجه الخصوص، فهو يفصل متوسط ​​الوقت حتى الفشل (MTTF) ويوضح لماذا ليس مقياسًا مفيدًا للغاية. وبدلاً من ذلك، يقترح معدل الفشل السنوي (AFR) باعتباره أكثر فائدة، ويوضح السبب بالإشارة إلى عمر الإنسان.

ويتحدث أيضًا عن سبب عدم وجود متوسط ​​الوقت بين الفشل تنطبق على محركات الأقراص الصلبةولماذا أنظمة التخزين الخاصة بالمؤسسات بحاجة إلى محركات أقراص المؤسسة.

ما هو متوسط ​​الوقت لمعدل الفشل (MTTF)؟

MTTF هو مقياس لاحتمالية المدة التي سيستغرقها فشل محرك الأقراص الثابتة.

لكنها ليست كذلك مقياس مفيد جدا. لنفترض أن محرك الأقراص الثابتة النموذجي للمؤسسة MTTF يبلغ 2.5 مليون ساعة. مما يعني أن الأمر قد يستغرق 2.5 مليون ساعة حتى يفشل محرك الأقراص. لكن 2.5 مليون ساعة، إذا قمت بالحسابات، تساوي 285 عامًا.

هذا ليس التفسير الصحيح لتلك القيمة، وهناك الكثير من سوء الفهم، لذلك أود توضيح ذلك هنا والعودة إلى قيمة أكثر فائدة.



يمكن حساب MTTF البالغ 2.5 مليون ساعة في معدل فشل سنوي، ومعدل الفشل السنوي لمحركات أقراص المؤسسة هو 0.35%. تعد هذه قيمة أكثر فائدة لأنها تعني أن 0.35% من محركات الأقراص الثابتة التي تقوم بتشغيلها قد تفشل خلال عام واحد.

لنفترض أن لديك مركز بيانات يحتوي على 1000 محرك أقراص. [That means] قد تفشل 0.35% أو 3.5 محركات أقراص سنويًا. سيكون ذلك ضمن مواصفات الموثوقية. لذلك، سيتعين عليك وضع ميزانية لثلاث إلى أربع عمليات استبدال فاشلة، ويمكنك توقع ثلاثة إلى أربعة حالات فشل سنويًا.

وهذا يعني أن محركات الأقراص الثابتة يمكن الاعتماد عليها إلى حد كبير، مع حدوث ثلاثة إلى أربعة حالات فشل فقط سنويًا. وهذا كله بالطبع إذا قمت بتشغيل محركات الأقراص الثابتة ضمن المواصفات المتفق عليها. وهذا يعني التشغيل على مدار 24 ساعة طوال أيام الأسبوع مع درجة حرارة أقل من 42 درجة مئوية في المتوسط ​​وعبء عمل أقل من 550 تيرابايت [terabytes] سنويًا، وأيضًا خلال فترة ضمان مدتها خمس سنوات فقط.

من هذا الـ 0.35%، إذا قسمت عدد الساعات في السنة، وهو 8760، على AFR هذا، فإنك تصل إلى متوسط ​​الوقت للفشل.

إذن، 8,760 ساعة مقسومة على 0.35%، أو 0.0035 – هذه المعادلة تعطيك 2.5 مليون ساعة. إذا كان لديك محرك قرص ثابت واحد فقط، فسوف يستغرق الأمر 285 عامًا حتى يتعطل هذا القرص في المتوسط، ولكن فقط بموجب الشرط المتفق عليه، والشرط المتفق عليه خلال خمس سنوات من الضمان.

هذه 2.5 مليون ساعة، أو 285 عامًا، تعني أنه إذا قمت باستبدال محرك الأقراص الثابتة الخاص بك كل خمس سنوات، فبعد 285 عامًا، ستواجه فشلًا عشوائيًا. لكن مرة أخرى، 285 سنة هي فترة مرتفعة للغاية. يمكنك صياغة ذلك بأنه إذا كان لديك 2.5 مليون محرك، فسوف يكون لديك فشل واحد في الساعة.

أو إذا كان لديك 2500 محرك، سيكون لديك فشل واحد كل ألف ساعة. سيكون هذا نوعًا من التفسير الواقعي لهذه الـ 2.5 مليون ساعة.

ولكن إذا كان لديك فقط قيمة متوسط ​​الوقت للفشل، وتستغرق 8760 ساعة في السنة مقسومة على MTTF، فسيكون لديك معدل الفشل السنوي، وهو قيمة أكثر فائدة.

لكن MTTF ليست قيمة مفيدة للغاية وبالنسبة للمنتجات ذات معدل الفشل المنخفض مثل محركات الأقراص الثابتة، فإنها غالبًا ما تؤدي إلى سوء الفهم.

التشبيه الأفضل لشرح ذلك هو نوع آخر من المنتجات ذات معدل الفشل المنخفض: الإنسان. معدل فشلي خلال العام المقبل منخفض جدًا. معظم الأشخاص في عمري الذين يعملون تحت مسمى “موظف المكتب” سيبقون على قيد الحياة في العام المقبل.

سألت شركة التأمين الصحي الخاصة بي: ما هو احتمال فشلي خلال العام المقبل؟ إنهم يعرفون هذه القيمة لأنني إذا فشلت، أو إذا مت في العام المقبل، فسيتعين عليهم أن يدفعوا. إنهم يعرفون هذه القيمة جيدًا، وأخبروني أنها 0.16%. من بين 1000 عقد تأمين على الحياة لأشخاص مثلي، مسجلين في كتبهم، يحسبون 1.6 حالة وفاة في العام المقبل.

إذا قمت بإجراء العمليات الحسابية والحساب من 0.16%، فسيعطي هذا MTTF خمسة ملايين ساعة، مما يعني أنني موثوق به مرتين مثل محرك الأقراص الثابتة؛ خمسة ملايين ساعة هي 625 سنة، وبالطبع لن أعيش 625 سنة. أخبرتني شركة التأمين على الحياة أنهم يحسبون لمدة 82 عامًا.

هذه هي الموثوقية. إنه يخبرنا بعدد الإخفاقات التي ستحدث خلال العام المقبل – وهذا كل ما في الأمر. إنها ليست 100 سنة.

هل يمكنك شرح الفرق بين MTTF وMTBF (متوسط ​​الوقت بين حالات الفشل)؟

تحدثنا عن MTTF، يعني وقت الفشل. في بعض الأحيان، يتم كتابته في أوراق البيانات كـ MTBF، وهو متوسط ​​الوقت بين حالات الفشل.

بالمعنى الدقيق للكلمة، متوسط ​​الوقت بين حالات الفشل مخصص للمنتجات التقنية التي يمكن إصلاحها. مع السيارات، يمكن أن يكون لديك وقت متوسط ​​للفشل الأول. بعد إصلاح السيارة، يكون لديك الوقت الكافي للفشل التالي.

نظرًا لأنه لا يمكن إصلاح محركات الأقراص الثابتة، فإن المصطلح الصحيح لمحرك الأقراص الثابتة هو MTTF، أي متوسط ​​وقت الفشل.

السؤال التالي هو ما الذي يسبب فشل محركات الأقراص؟

أي شئ. محركات الأقراص هي مكونات ميكانيكية تحتوي على الكثير من الإلكترونيات.

قد يكون هناك عطل إلكتروني، أو هجرة كهربائية، أو قد تتمزق بعض الأسلاك الموجودة في الشريحة. يمكن أن تكون هناك أشياء ميكانيكية مثل فشل غراء الرأس أو اصطدام الرأس. هناك العديد من أوضاع الفشل المختلفة. ولحسن الحظ، فإن محركات الأقراص موثوقة للغاية.

القديم 0.35%؛ هذا موثوق للغاية. نادرا ما يحدث. نادرا ما يحدث. ويستغرق حدوث ذلك وقتًا طويلاً في المتوسط.

لن تتعطل معظم محركات الأقراص خلال فترة ضمانها البالغة خمس سنوات، أو حتى سبع أو ثماني أو تسع سنوات من التشغيل. الغالبية العظمى لن تفشل، ولكن يمكن أن يحدث.

ولهذا السبب لدينا قيم الموثوقية الإحصائية هذه. على الرغم من أن ذلك قد يحدث نادرًا، إلا أنه قد يحدث متأخرًا، وقد لا يحدث على الإطلاق، فلا يزال هناك احتمال متبقي لحدوث عطل لمحرك الأقراص الخاص بك في أي وقت.

حتى في اليوم الأول أو الثاني، قد يحدث ذلك حتى مع احتمالية أقل، لكنه لا يزال من الممكن أن يحدث. ولهذا السبب فإن النسخ الاحتياطي مهم دائمًا.

ما الفرق من حيث الفشل بين إعداد 10 محركات أقراص وإعداد 60 محرك أقراص؟

قد تحدث أعطال لأي محرك أقراص مع احتمالية منخفضة جدًا. ولكن هناك فرق إذا كان لديك محرك أقراص واحد فقط أو 10 محركات أقراص، أو إذا كان لديك 60 أو 120 محرك أقراص. كلما زاد عدد محركات الأقراص لديك، زادت احتمالية وجودها على نفس محرك الأقراص، ولكن كلما زاد عدد محركات الأقراص لديك [probability] أن تواجه فشلًا واحدًا في النظام.

لنفترض أنه إذا كان لديك محرك أقراص واحد أو 10 محركات أقراص، فقد تتمكن من تشغيلها بمحركات أقراص ذات موثوقية أقل. لنفترض، على سبيل المثال، محركات أقراص سطح المكتب. لديهم معدل فشل سنوي يبلغ 1.5%، ولكن إذا كان لديك واحد أو اثنين أو أربعة فقط بمعدل فشل سنوي يبلغ 1.5%، فلن يكون لديك الكثير من حالات الفشل.

ستكون معظم الأنظمة مستقرة. إذا أخذت معدل الفشل السنوي هذا البالغ 1.5% في نظام مكون من 60 فتحة، فقد يفشل كل نظام كل عام. إذا كنت تريد القيام بذلك، فقد تكون موافقًا على ذلك، ولكن معظم حالات فشل محركات الأقراص تتسبب في انقطاع الخدمة وتتطلب تفاعلًا يدويًا عند استبدال محركات الأقراص.

وعندما تقوم بتشغيل نظام مكون من 60 فتحة، لا يمكنك تحمل هذا العدد الكبير من حالات الفشل أو حالات التفاعل اليدوي مع نظامك. أنت بحاجة إلى الاعتماد على محركات الأقراص المؤسسية ذات احتمالية الفشل المنخفضة. هذا هو الفرق في الأساس.

يمكن تشغيل الأنظمة الأصغر باستخدام محركات أقراص ذات موثوقية أقل بسبب انخفاض عدد محركات الأقراص. مع وجود العديد من محركات الأقراص في بيئات المؤسسات، يجب عليك استخدام محركات أقراص مناسبة للمؤسسات.

كيف ينبغي إعداد أنظمة التخزين لتقليل مخاطر فشل محرك الأقراص الثابتة؟

مرة أخرى، قم بتشغيل محركات الأقراص الثابتة في ظروف الموثوقية الموجودة في ورقة البيانات. لا ينبغي تشغيل محرك الأقراص الثابتة الذي لا يعمل على مدار 24 ساعة طوال أيام الأسبوع على مدار 24 ساعة طوال أيام الأسبوع.

يجب تشغيل محركات الأقراص الثابتة ضمن نطاق درجات الحرارة. يجب ألا تتجاوز محركات الأقراص الثابتة حجم العمل المحدد في أوراق البيانات. عبء العمل هو مجرد إشارة.

انها ليست مثل الحد من التحمل. بالنسبة لمحركات أقراص المؤسسات، نقول 550 تيرابايت سنويًا. إذا كنت تقرأ أو تكتب أكثر قليلاً، فلا يهم، ولكن إذا كنت تقرأ أو تكتب مرتين أو ثلاثًا، وهو ما يمكنك فعله إذا قمت بتحميل محرك الأقراص الثابتة بقدر ما تستطيع، فستكون لديك موثوقية أقل.

طالما أنك تحافظ على ظروف التشغيل هذه وضمن نطاق درجة الحرارة – 42 درجة مئوية في المتوسط ​​هي أعلى موثوقية – فيمكنك الاستمتاع بعمر طويل لمحركات الأقراص الثابتة لديك.



Source link

زر الذهاب إلى الأعلى