تقنية

بحيرات البيانات السحابية: أين تناسبها وما فوائدها؟


العديد من الشركات تتجه نحو استخدام بحيرات البيانات للمساعدة في إدارة كميات متزايدة من المعلومات.

تسمح هذه المستودعات الكبيرة للمؤسسات بجمع وتخزين البيانات المنظمة وغير المنظمة قبل تسليمها لمزيد من المعلومات إدارة البيانات والمعالجة في مستودع البيانات أو قاعدة البيانات أو تطبيق المؤسسة أو لعلماء البيانات والتحليلات أدوات الذكاء الاصطناعي (AI)..

ونظرًا للكميات الهائلة المحتملة من البيانات والحاجة إلى التوسع مع نمو الأعمال، فإن المزيد من المؤسسات تنظر إلى السحابة كموقع لبحيرة البيانات.

ما هي بحيرة البيانات؟

تحتوي بحيرات البيانات على بيانات أولية. من بحيرة البيانات، تنتقل البيانات إلى أسفل – بشكل عام لمزيد من المعالجة أو إلى قاعدة بيانات أو تطبيق مؤسسي. بحيرة البيانات هي المكان الذي يتم فيه جمع تدفقات البيانات المختلفة للشركة، سواء من سلسلة التوريد أو العملاء أو التسويق أو المخزون أو بيانات الاستشعار من المصنع أو الآلات.

يمكن أن تكون البيانات الموجودة في بحيرة البيانات منظمة، أو غير منظمة، أو شبه منظمة. يمكن للشركات استخدام علامات البيانات الوصفية للمساعدة في العثور على الأصول، ولكن الافتراض هو أن البيانات سوف تتدفق إلى التطبيقات المتخصصة، أو سيتم العمل عليها من قبل علماء البيانات والمطورين.

خدمات الويب من أمازون (AWS) يقدم تعريفًا عمليًا جيدًا – بحيرة البيانات هي “مستودع مركزي يسمح لك بتخزين جميع بياناتك المنظمة وغير المنظمة على أي نطاق. يمكنك تخزين بياناتك كما هي، دون الحاجة إلى تنظيم البيانات أولاً”.

وهذا يتناقض مع أ مستودع البياناتحيث يتم تخزين المعلومات في قواعد البيانات، والتي يمكن للموظفين وتطبيقات المؤسسة الوصول إليها.

بحيرات البيانات السحابية: الميزات الرئيسية

السمة الرئيسية لبحيرة البيانات السحابية هي حجمها، تليها سهولة الإدارة. تعمل مستودعات البيانات الخاصة بموفري الخدمات السحابية فائقة النطاق على وحدات تخزين الكائنات، وهي توفر سعة غير محدودة عمليًا. من المحتمل أن يكون القيد الوحيد هو ميزانية تخزين البيانات الخاصة بالمؤسسة.

كما هو الحال مع تقنيات التخزين السحابية الأخرى، بحيرات البيانات السحابية يمكن توسيع نطاقها صعودًا وهبوطًا، للسماح للعملاء بتعديل السعة وبالتالي التكلفة، وفقًا لمتطلبات العمل. يعتبر المقياس الفائق مسؤولاً عن إضافة السعة وصيانة الأجهزة والبرامج والتكرار والأمان، وبالتالي يزيل هذا العبء عن فريق علم البيانات.

يقول سريفاتسا نوري، خبير البيانات في PA Consulting: “تسمح خدمات مستودع البيانات المُدارة من وحدات التوسعة السحابية الفائقة لفرق هندسة البيانات بالتركيز على تحليلات الأعمال، مما يحررهم من المهام التي تستغرق وقتًا طويلاً المتمثلة في صيانة البنية التحتية لمستودع البيانات في الموقع”.

“إن الموثوقية العالية والتوفر والتكنولوجيا الحديثة التي تقدمها أدوات التوسع السحابية الفائقة تجعل البنى التحتية لمستودعات البيانات المُدارة ذات شعبية متزايدة، لأنها تضمن الأداء القوي والحد الأدنى من وقت التوقف عن العمل.”

ويضيف أن موفري الخدمات السحابية يقدمون أيضًا ضوابط وصول وتدقيقًا متطورة، بالإضافة إلى تبسيط الفوترة من خلال أدوات مثل وضع علامات على الموارد.

وعلى الرغم من أن بحيرات البيانات ومستودعات البيانات كانت منفصلة إلى حد كبير حتى الآن، إلا أنها تقترب من بعضها البعض، إما تعمل على منصة واحدة أو كـ “بيوت بحيرة البيانات“.

يقول نوري: “في بنية البيانات الحديثة، يوجد مكان لبحيرة البيانات ومستودع البيانات لأنهما يخدمان أغراضًا مجانية”. “توفر السحابة بيئة قوية لتوحيد كلا النهجين.”

إيجابيات وسلبيات بحيرات البيانات السحابية

تنطبق معظم فوائد التخزين السحابي واسع النطاق بالتساوي على بحيرات البيانات السحابية، بما في ذلك الحجم والمرونة وسهولة الإدارة.

تتجنب المؤسسات أيضًا الحاجة إلى إنفاق رأسمالي مقدمًا، والمهل الزمنية الطويلة التي تأتي من إنشاء مراكز البيانات وتركيب الأجهزة.

وفي مقابل ذلك، تحتاج المنظمات إلى النظر في فقدان السيطرة المحتمل، خاصة فيما يتعلق بالتكلفة. يمكن أن تؤدي الطبيعة المرنة للتخزين السحابي إلى ارتفاع التكاليف إذا تم استخدام بحيرة البيانات أكثر مما كان متوقعًا. تحتاج فرق البيانات أيضًا إلى النظر في تكاليف الخروج والنطاق الترددي المحتملة، خاصة أثناء نقل البيانات “في اتجاه مجرى النهر” إلى قواعد البيانات والتطبيقات الأخرى.

يظل الأمن والسرية وسيادة البيانات بمثابة عوائق أمام بعض المنظمات. يمكن أن تضع اللوائح حدودًا على المكان الذي تحتفظ فيه المؤسسات بالبيانات، ويمكن أن تكون البيانات الأولية غير المعالجة حساسة للغاية. توفر أجهزة Hyperscalers الآن مناطق توفر وحدودًا جغرافية للمكان الذي تحتفظ فيه ببيانات العملاء. ويتعين على مديري تكنولوجيا المعلومات والرؤساء التنفيذيين للبيانات التأكد من أن هذه الحدود تلبي متطلبات العمل.

على الرغم من أن الأداء لا يمثل عادةً عائقًا أمام مشاريع بحيرة البيانات واسعة النطاق، نظرًا لأن المعالجة الثقيلة تتم في اتجاه مجرى النهر. يكون الأداء أكثر أهمية على مستوى مستودع البيانات، حيث يتم استخدام تخزين الكتل – سواء في السحابة أو محليًا – لتخزين قاعدة البيانات.

عروض بحيرة البيانات الخاصة بـ Hyperscalers

بالنسبة للمؤسسات التي تقوم ببناء بحيرات بيانات في السحابة، تقدم مايكروسوفت أزور تخزين Data Lake (ADLS)، بالإضافة إلى Azure Synapse للتحليلات، وAzure Purview لإدارة البيانات. يجمع ADLS Gen2 بين ADLS Gen1 وتخزين Azure Blob، بينما يعمل Synapse مع البيانات المنظمة وغير المنظمة لمستودعات البيانات.

توفر AWS تشكيل بحيرة AWS، لبناء بحيرات البيانات على تخزين S3. ويتحد هذا مع Athena وRedshift Spectrum وSageMaker للوصول إلى البيانات والتحليلات والتعلم الآلي.

تتخذ Google نهجًا مختلفًا بعض الشيء، حيث تجمع بين Google Cloud Storage والأدوات مفتوحة المصدر، وBigQuery وVertexAI. تقدم Google أيضًا BigLake، الذي يمكنه الجمع بين التخزين عبر GCP وS3 وAzure بالإضافة إلى إنشاء بنية موحدة لبحيرات البيانات ومستودعات البيانات، وما تسميه Google “مستودع بيانات مفتوح التنسيق”.



Source link

زر الذهاب إلى الأعلى