تقنية

ما هي البيانات الضخمة كخدمة (BDaaS)؟


ما هي البيانات الضخمة كخدمة (BDaaS)؟

البيانات الكبيرة كخدمة (BDaaS) هي عبارة عن تقديم منصات وأدوات البيانات من قبل موفر السحابة لمساعدة المؤسسات على معالجة مجموعات البيانات الكبيرة وإدارتها وتحليلها حتى يتمكنوا من توليد رؤى لتحسين العمليات التجارية و الحصول على ميزة تنافسية.

تولد الشركات كميات هائلة من البيانات غير المنظمة وشبه المنظمة والمنظمة على أساس منتظم. تتيح لهم البيانات الضخمة كخدمة استخدام موفري الطرف الثالث إدارة البيانات الأنظمة ومهارات تكنولوجيا المعلومات لتحرير الموارد التنظيمية التي يمكن تخصيصها للأنظمة المحلية. يمكن أن تكون BDaaS أنظمة وبرامج مخصصة تعمل في السحابة أو عقدًا لخدمة مُدارة يستضيفها ويديرها بائع السحابة.

BDaaS هو شكل من أشكال الحوسبة السحابية، يشبه البرنامج كخدمة، والنظام الأساسي كخدمة، والبنية التحتية كخدمة. بالإضافة إلى استخدام أطر معالجة البيانات والأدوات المرتبطة بها في جوهر هذه الخدمات السحابية، يعتمد BDaaS على سحابة التخزين للحفاظ على مجموعات البيانات وتزويد مؤسسة المستخدم بإمكانية الوصول إليها.

فوائد البيانات الضخمة كخدمة

في الماضي، كانت المؤسسات الكبيرة تقوم في كثير من الأحيان بتثبيت أنظمة البيانات الضخمة في مراكز البيانات المحلية. تجمع هذه الأنظمة بين العديد من التقنيات مفتوحة المصدر لتناسب خصوصيات المؤسسة تطبيقات البيانات الضخمة واحتياجات حالة الاستخدام. وفي الآونة الأخيرة، تحولت عمليات النشر إلى السحابة بسبب مزاياها المحتملة. فيما يلي بعض فوائد البيانات الضخمة كخدمة:

  • تقليل التعقيد. نظرًا لطبيعتها المخصصة، فإن مشاريع وبيئات البيانات الضخمة معقدة في التصميم والنشر والإدارة. يؤدي استخدام البنية التحتية السحابية والخدمات المُدارة إلى التخلص من الكثير من العمل العملي الذي تحتاج المؤسسات إلى القيام به وتبسيط العملية.
  • سهولة التوسع. في العديد من البيئات، لا تكون أحمال عمل معالجة البيانات متسقة. على سبيل المثال، تحليلات البيانات الكبيرة غالبًا ما يتم تشغيل التطبيقات بشكل متقطع أو مرة واحدة فقط. تعمل خدمة BDaaS على تسهيل توسيع نطاق الأنظمة عند زيادة احتياجات المعالجة وتقليص حجمها مرة أخرى بعد اكتمال المهام.
  • زيادة المرونة. يمكن لمستخدمي BDaaS إضافة أو إزالة الأنظمة الأساسية والتقنيات والأدوات بسهولة لتلبية متطلبات الأعمال المتطورة القائمة على البيانات. ليس من السهل القيام بذلك في بنيات البيانات الضخمة المحلية.
  • وفورات في التكاليف المحتملة. باستخدام السحابة، لا يتعين على الشركات شراء أجهزة وبرامج جديدة وتوظيف العمال إدارة البيانات الكبيرة مهارات. ونتيجة لذلك، من الممكن تحقيق وفورات في التكاليف. ولكن يجب مراقبة الخدمات السحابية للدفع أولاً بأول لمنع نفقات المعالجة غير الضرورية من زيادة التكاليف.
  • أمان أقوى. مخاوف بشأن أمن البيانات منعت العديد من المؤسسات من اعتماد السحابة في البداية، خاصة في الصناعات الخاضعة للتنظيم. ومع ذلك، في كثير من الحالات، استثمر بائعو الخدمات السحابية ومقدمو الخدمات في وسائل حماية أمنية أفضل مما تستطيع الشركات الفردية القيام به بشكل عام.
قائمة فوائد البيانات الضخمة كخدمة
هذه بعض الفوائد التي يمكن للمؤسسات الحصول عليها من منصات BDaaS.

تحديات البيانات الضخمة كخدمة

على الرغم من الفوائد التي لا تعد ولا تحصى للمؤسسات، إلا أن BDaaS ليست مضمونة، وإذا لم تتم إدارة هذه الخدمات بشكل صحيح، فإنها يمكن أن تسبب مشاكل. تتضمن بعض العيوب المحتملة التي يجب أن تكون على دراية بها ما يلي:

  • خصوصية البيانات. هذه الخدمات ليست محصنة ضد الهجمات الإلكترونية المتقدمة اليوم. حساس أو معلومات التعرف الشخصية يمكن اختراقها إذا لم يكن المستخدمون حذرين بشأن خصوصية البيانات وأمانها.
  • حوكمة البيانات والامتثال التنظيمي. لا يقدم موفرو خدمة BDaaS ممارسات مدمجة لإدارة البيانات تضمن استخدامًا مسؤولًا وأخلاقيًا للبيانات، وبالتالي يقع العبء على مؤسسات المستخدمين العثور على طرق أخرى لضمان حوكمة البيانات. يمكن أن يشكل هذا تحديًا، خاصة مع البيانات غير المنظمة. كما أن ضمان توافق استخدام البيانات مع اللوائح والأطر القانونية هو مهمة يجب على المؤسسات التي تستخدم خدمات BDaaS معالجتها بنفسها.
  • أعباء إدارة التكاليف. إن استخدام خدمات BDaaS المستندة إلى السحابة يعني أن المؤسسات يمكنها تجنب عمليات شراء البنية التحتية المكلفة، ومع ذلك، يجب على المؤسسات إدارة كيفية استخدامها لهذه الخدمات وإلا فقد تتراكم التكاليف غير الضرورية بمرور الوقت. ولمنع حدوث ذلك، يتعين عليهم التحكم في الإنفاق وتحسين استخدامهم لهذه الموارد.
  • التعقيدات الإدارية. وينطبق هذا بشكل خاص على المؤسسات الكبيرة حيث تهدف إمكانات BDaaS إلى تغطية جميع الأقسام. قد يكون من الصعب إدارة الكميات الكبيرة من البيانات المستخدمة والمخزنة عبر المؤسسة بأكملها. لذلك، يجب على علماء البيانات وقادة الأعمال توصيل خطة لإدارة البيانات بفعالية إلى كل من يوظفهم.

العناصر الرئيسية لعروض BDaaS

يقدم كل من بائعي المنصات السحابية الثلاثة الكبار حزم وخدمات تكنولوجيا البيانات الضخمة: Amazon EMR من Amazon Web Services (AWS)، وGoogle Cloud Dataproc، وAzure HDInsight من Microsoft. تتضمن عينة من موردي البيانات الضخمة كخدمة الآخرين Cloudera وDatabricks وHPE وIBM وOracle وQubole.

توفر منصات BDaaS المتنافسة مجموعات مختلفة من برمجيات البيانات الضخمة مفتوحة المصدر. وتشمل التقنيات الأساسية المشتركة هادوب إطار المعالجة الموزعة ومحرك معالجة Spark وبرنامج مستودع بيانات Hive ولغات البرمجة Python وR وScala. فيما يلي أمثلة للأدوات التي غالبًا ما يتم تضمينها كمكونات قياسية أو اختيارية:

  • HBase، قاعدة بيانات Hadoop المصاحبة.
  • Flink وKafka ومحركات معالجة الدفق الأخرى في الوقت الفعلي.
  • Presto، محرك استعلام SQL منافس لـ Hive.
  • إطار تطبيق Tez.
  • الأدوات التحليلية مثل Jupyter Notebook وMahout وPig وZeppelin.
  • Oozie جدولة سير العمل.
  • خدمة تكوين مجموعة ZooKeeper.

يمكن تخزين البيانات في نظام الملفات الموزعة Hadoop (HDFS)، وهو أحد مكونات Hadoop الأساسية، أو في خدمات تخزين الكائنات السحابية مثل Amazon Simple Storage Service، وGoogle Cloud Storage، وMicrosoft Azure Blob Storage. يمكن لمنصات BDaaS أيضًا الاتصال بمستودع البيانات و بحيرة البيانات البيئات، مثل Azure Data Lake Storage وDelta Lake وIceberg وSnowflake.

اتجاهات سوق BDaaS

في حين أن سوق BDaaS يركز بشكل أساسي على عمليات نشر السحابة العامة، يمكن للمستخدمين تثبيت منصات AWS وGoogle وMicrosoft في مراكز البيانات الخاصة بهم وغيرها من المرافق المحلية. يتوفر دعم إضافي لتشغيل خدمات البيانات الضخمة لكل بائع سحابة هجينة النظام الأساسي – AWS Outposts، وGoogle Anthos، وAzure Stack، على التوالي. وباستخدام هذه التقنيات، يمكن للمؤسسات إنشاء سحابات خاصة أو مزج السحابة العامة والأنظمة الداخلية في بيئات البيانات الضخمة الخاصة بها.

قام جميع البائعين الثلاثة بربط منصات BDaaS الخاصة بهم بخدمات Kubernetes. هذه تمكن المنظمات من استخدام الشعبية إدارة الحاويات إطار عمل لإنشاء تطبيقات بيانات كبيرة في حاويات، والتي يمكن أن تساعد في تبسيط عمليات النشر وتبسيط إدارة البنية التحتية وتحسين استخدام موارد النظام.

تركز الآن AWS وGoogle وغيرهما من موردي BDaaS على Spark والتقنيات الأخرى على Hadoop، والتي كانت في البداية في مركز عروضهم والنظام البيئي للبيانات الضخمة. ويعكس ذلك تراجعا أوسع نطاقا في مكانة Hadoop مقابل سبارك كمحرك معالجة الدفعات، على الرغم من أن Hadoop’s غزل يستمر استخدام برامج إدارة موارد المجموعة وHDFS على نطاق واسع.

يعد تخزين البيانات الضخمة جزءًا مهمًا من إدارة البيانات الضخمة، ولكن يجب استخراج كميات كبيرة من البيانات من المصادر أولاً. تعرف على كيفية القيام بذلك أعمال جمع البيانات الكبيرة.



Source link

زر الذهاب إلى الأعلى