ما هي العناصر الخمسة للبيانات الضخمة؟
ما هي العناصر الخمسة للبيانات الضخمة؟
إن العناصر الخمسة للبيانات الضخمة – السرعة والحجم والقيمة والتنوع والصدق – هي الخصائص الخمس الرئيسية والفطرية للبيانات الكبيرة. البيانات الكبيرة. معرفة الـ 5 V’s Lets علماء البيانات استخلاص قيمة أكبر من بياناتهم مع السماح أيضًا لمؤسساتهم بأن تصبح أكثر تركيزًا على العملاء.
في وقت سابق من هذا القرن، تم الحديث عن البيانات الضخمة من حيث ثلاثة حرف V – الحجم والسرعة والتنوع. وبمرور الوقت، تمت إضافة علامتين إضافيتين – القيمة والصدق – لمساعدة علماء البيانات على توضيح الخصائص المهمة للبيانات الضخمة وتوصيلها بشكل أكثر فعالية. في بعض الحالات، يوجد مصطلح سادس للبيانات الضخمة – التباين.
ما هي البيانات الكبيرة؟
البيانات الضخمة هي مزيج من غير منظم, شبه منظمة أو البيانات المنظمة تم جمعها من قبل المنظمات. يمكن استخراج مجموعات البيانات هذه للحصول على رؤى واستخدامها في التعلم الالي المشاريع والنمذجة التنبؤية وغيرها من تطبيقات التحليلات المتقدمة.
يمكن استخدام البيانات الضخمة لتحسين العمليات وتقديم خدمة أفضل للعملاء وإنشاء حملات تسويقية مخصصة – وكل ذلك يمكن أن يزيد القيمة للمؤسسة. كمثال، تحليلات البيانات الكبيرة يمكن أن تزود الشركات برؤى قيمة حول عملائها والتي يمكن استخدامها بعد ذلك لتحسين تقنيات التسويق لزيادة حجمها إشراك العملاء ومعدلات التحويل.
يمكن استخدام البيانات الضخمة في الرعاية الصحية لتحديد عوامل خطر الإصابة بالأمراض، أو يمكن للأطباء استخدام البيانات الضخمة للمساعدة في تشخيص الأمراض لدى المرضى. يمكن لصناعات الطاقة استخدام البيانات الضخمة لتتبع الشبكات الكهربائية وسنها إدارة المخاطر أو لتحليل بيانات السوق في الوقت الحقيقي.
تتمتع المؤسسات التي تستخدم البيانات الضخمة بميزة تنافسية محتملة على تلك التي لا تستخدمها لأنها تستطيع اتخاذ قرارات عمل أسرع وأكثر استنارة – كما هو منصوص عليه في البيانات.
ما هي الـ 5 V؟
يتم تعريف الـ 5 V على النحو التالي:
- سرعة هي السرعة التي يتم بها إنشاء البيانات ومدى سرعة تحركها.
- مقدار هي كمية البيانات المؤهلة لتكون بيانات كبيرة.
- قيمة هي القيمة التي توفرها البيانات.
- متنوع هو التنوع الموجود في أنواع البيانات.
- الموثوقية هي جودة البيانات ودقتها.
سرعة
تشير السرعة إلى مدى سرعة إنشاء البيانات ومدى سرعة تحركها. يعد هذا جانبًا مهمًا للمؤسسات التي تحتاج إلى تدفق بياناتها بسرعة، بحيث تكون متاحة في الأوقات المناسبة لاتخاذ أفضل قرارات العمل الممكنة.
سيكون لدى المؤسسة التي تستخدم البيانات الضخمة تدفق كبير ومستمر من البيانات التي يتم إنشاؤها وإرسالها إلى وجهتها النهائية. يمكن أن تتدفق البيانات من مصادر مثل الأجهزة أو الشبكات أو الهواتف الذكية أو وسائل التواصل الاجتماعي. تنطبق السرعة على السرعة التي تصل بها هذه المعلومات – على سبيل المثال، عدد منشورات وسائل التواصل الاجتماعي التي يتم استيعابها يوميًا – بالإضافة إلى السرعة التي يجب أن يتم بها استيعابها وتحليلها – غالبًا بسرعة وأحيانًا في الوقت الفعلي تقريبًا .
على سبيل المثال، في مجال الرعاية الصحية، تم تصميم العديد من الأجهزة الطبية اليوم لمراقبة المرضى وجمع البيانات. بدءًا من المعدات الطبية داخل المستشفى وحتى الأجهزة التي يمكن ارتداؤها، يجب إرسال البيانات المجمعة إلى وجهتها وتحليلها بسرعة.
ومع ذلك، في بعض الحالات، قد يكون من الأفضل أن يكون لديك مجموعة محدودة من البيانات المجمعة بدلاً من جمع بيانات أكثر مما تستطيع المؤسسة التعامل معه – لأن ذلك قد يؤدي إلى تباطؤ سرعات البيانات.
مقدار
يشير الحجم إلى كمية البيانات الموجودة. يشبه الحجم قاعدة البيانات الضخمة، حيث إنه الحجم الأولي وكمية البيانات التي يتم جمعها. إذا كان حجم البيانات كبيرًا بدرجة كافية، فيمكن اعتبارها بيانات ضخمة. ومع ذلك، فإن ما يعتبر بيانات ضخمة أمر نسبي وسيتغير اعتمادًا على قوة الحوسبة المتاحة في السوق.
على سبيل المثال، تقوم الشركة التي تدير مئات المتاجر في عدة ولايات بإنشاء ملايين المعاملات يوميًا. وهذا يعتبر بمثابة بيانات ضخمة، ويمثل متوسط عدد المعاملات الإجمالية يوميًا عبر المتاجر حجمها.
قيمة
تشير القيمة إلى الفوائد التي يمكن أن توفرها البيانات الضخمة، وترتبط بشكل مباشر بما يمكن للمؤسسات فعله بهذه البيانات المجمعة. تعد القدرة على استخلاص القيمة من البيانات الضخمة أمرًا متطلبًا، حيث تزداد قيمة البيانات الضخمة بشكل كبير اعتمادًا على الرؤى التي يمكن اكتسابها منها.
يمكن للمؤسسات استخدام أدوات البيانات الضخمة لجمع البيانات وتحليلها، ولكن كيفية استخلاص القيمة من تلك البيانات يجب أن تكون فريدة بالنسبة لها. أدوات مثل أباتشي هادوب يمكن أن تساعد المؤسسات في تخزين هذه الكمية الهائلة من البيانات وتنظيفها ومعالجتها بسرعة.
يمكن العثور على مثال رائع لقيمة البيانات الضخمة في جمع بيانات العملاء الفردية. عندما تتمكن الشركة من تقديم تعريف لعملائها، يمكنها تخصيص تجربتهم فيها التسويق والمبيعاتوتحسين كفاءة الاتصالات والحصول على قدر أكبر من رضا العملاء.
متنوع
يشير التنوع إلى تنوع أنواع البيانات. قد تحصل إحدى المؤسسات على بيانات من عدة مصادر بيانات، والتي قد تختلف في قيمتها. يمكن أن تأتي البيانات من مصادر داخل المؤسسة وخارجها أيضًا. ويتعلق التحدي المتمثل في التنوع بتوحيد وتوزيع جميع البيانات التي يتم جمعها.
كما هو مذكور أعلاه، يمكن أن تكون البيانات المجمعة غير منظمة، أو شبه منظمة، أو منظمة. البيانات غير المنظمة هي بيانات غير منظمة وتأتي في ملفات أو تنسيقات مختلفة. عادةً، لا تكون البيانات غير المنظمة مناسبة تمامًا للتيار السائد قاعدة بيانات علائقية لأنه لا يتناسب مع نماذج البيانات التقليدية. البيانات شبه المنظمة هي البيانات التي لم يتم تنظيمها في مستودع متخصص ولكنها تحتوي على معلومات مرتبطة بها، مثل البيانات الوصفية. وهذا يجعل معالجتها أسهل من معالجة البيانات غير المنظمة. وفي الوقت نفسه، البيانات المنظمة هي البيانات التي تم تنظيمها في مستودع منسق. وهذا يعني أن البيانات أصبحت أكثر قابلية للمعالجة والتحليل الفعالين للبيانات.
البيانات الأولية مؤهلة أيضًا كنوع بيانات. في حين أن البيانات الأولية يمكن أن تندرج ضمن فئات أخرى – منظمة، وشبه منظمة، أو غير منظمة – إلا أنها تعتبر خام إذا لم تتلق أي معالجة على الإطلاق. في أغلب الأحيان، ينطبق الخام على البيانات المستوردة من مؤسسات أخرى أو المقدمة أو المدخلة من قبل المستخدمين. غالبًا ما تقع بيانات وسائل التواصل الاجتماعي ضمن هذه الفئة.
يمكن العثور على مثال أكثر تحديدًا في الشركة التي تجمع مجموعة متنوعة من البيانات حول عملائها. يمكن أن يشمل ذلك البيانات المنظمة المنتقاة من المعاملات أو منشورات وسائل التواصل الاجتماعي غير المنظمة ونصوص مركز الاتصال. وقد يصل الكثير من هذا في شكل بيانات أولية، تتطلب التنظيف قبل المعالجة.
الموثوقية
تشير الصدق إلى جودة البيانات ودقتها وسلامتها ومصداقيتها. قد تحتوي البيانات المجمعة على أجزاء مفقودة، أو قد تكون غير دقيقة، أو قد لا تكون قادرة على تقديم رؤية حقيقية وقيمة. تشير الصدق بشكل عام إلى مستوى الثقة الموجود في البيانات المجمعة.
يمكن أن تصبح البيانات في بعض الأحيان فوضوية ويصعب استخدامها. يمكن أن تسبب كمية كبيرة من البيانات ارتباكًا أكبر من الرؤى إذا كانت غير مكتملة. على سبيل المثال، في المجال الطبي، إذا كانت البيانات المتعلقة بالأدوية التي يتناولها المريض غير كاملة، فقد تتعرض حياة المريض للخطر.
تساعد كل من القيمة والصدق في تحديد الجودة والرؤى التي يتم جمعها من البيانات. عتبات ل حقيقة من البيانات في كثير من الأحيان – وينبغي – أن تكون موجودة في مؤسسة على المستوى التنفيذي، لتحديد ما إذا كانت مناسبة لاتخاذ القرارات على مستوى عال.
أين يمكن أن تظهر علامة حمراء على بيانات الصحة؟ يمكن، على سبيل المثال، أن تكون ناقصة في السليم نسب البيانات – أي أثر يمكن التحقق منه لنشأته وحركته.
الخامس السادس: التقلب
تغطي العناصر الخمسة المذكورة أعلاه الكثير من الأمور وتقطع شوطًا طويلًا في توضيح الاستخدام السليم للبيانات الضخمة. ولكن هناك عامل V آخر يستحق النظر فيه بجدية – وهو التباين – والذي لا يحدد البيانات الضخمة بقدر ما يؤكد على الحاجة إلى إدارتها بشكل جيد.
يشير التباين إلى التناقضات في استخدام البيانات الضخمة أو تدفقها. في الحالة الأولى، قد يكون لدى المنظمة أكثر من تعريف واحد مستخدم لبيانات معينة. على سبيل المثال، يمكن أن يكون لدى شركة التأمين قسم واحد يستخدم مجموعة واحدة من عتبات المخاطر بينما يستخدم قسم آخر مجموعة مختلفة. في المجموعة الثانية، قد تجد البيانات التي تتدفق إلى مخازن بيانات الشركة بطريقة لا مركزية – بدون نقطة دخول مشتركة أو التحقق المسبق – طريقها إلى أنظمة مختلفة تقوم بتعديلها، مما يؤدي إلى تضارب مصادر الحقيقة في جانب إعداد التقارير.
يتطلب تقليل التباين في البيانات الضخمة إنشاء تدفقات البيانات بعناية أثناء انتقال البيانات عبر أنظمة المؤسسة، من المعاملات إلى التحليل وكل شيء بينهما. وتتمثل الفائدة الأكبر في صحة البيانات الضخمة، حيث يؤدي الاتساق في استخدام البيانات إلى تقارير وتحليلات أكثر استقرارًا وبالتالي ثقة أعلى.
تعرف على العوامل التي يجب مراعاتها متى الاختيار بين بحيرة البيانات ومستودع البيانات لتخزين البيانات الكبيرة.