السيطرة على البيانات غير المهيكلة

في جميع أنحاء العالم ، يتم إنشاء البيانات بمعدل يومي 402.7 مليون تيرابايت، وحوالي 80 ٪ القادمين إلى المؤسسات غير منظمة. من خلال “غير منظم” ، نعني البيانات التي لا يتم تنظيمها في أطوال سجل يمكن التعرف عليها وقابلة للتطبيق والتي أنشأت مفاتيح في البيانات.
بدلاً من ذلك ، يمكن أن تأتي البيانات غير المهيكلة في شكل تسجيلات فيديو أو صوتية متجانسة ، وصور ، ورسومات CAD ، ورسائل البريد الإلكتروني ، ومستندات النسخ الصلبة ، والأشعة السينية ، والرنين المغناطيسي ، أو منشورات وسائل التواصل الاجتماعي ، أو حتى التزايد من الاتصالات السلكية واللاسلكية ومصحفي أجهزة الشبكة.
تكافح المؤسسات من أجل الحصول على هذه البيانات ، أو حتى لاستخدامها على الإطلاق. هذا دفع Splunk للإبلاغ هذا ، “لقد تحدث أكثر من 1300 من قادة الأعمال وتكنولوجيا المعلومات في سبعة اقتصادات رائدة: إنهم يكافحون من أجل العثور على جميع بياناتهم – ويبلغون أن أكثر من نصفها” مظلمة ” – غير مستغلة وغير معروفة في كثير من الأحيان. وعلى الرغم من أنهم يعرفون أن الذكاء الاصطناعى سيكون تحويليًا ، إلا أنهم غير متأكدين من متى وكيف. “
يتم أخذ هذه النقاط بشكل جيد ، لأنه إذا كنت ترغب في التفوق في الذكاء الاصطناعي ، فأنت بحاجة إلى قدرة الذكاء الاصطناعي على استخراج جميع البيانات المتوفرة ، وليس فقط 20 ٪ منها. للقيام بذلك ، يجب على الشركات الحصول على التعامل مع بياناتهم غير المهيكلة.
كيف تفعل هذا؟ من خلال فرز البيانات ، وتحديد أجزاء منها جيدة ، ثم تنظيم البيانات الجيدة بحيث يمكن استخدامها في العمليات الجهازية مثل الذكاء الاصطناعي.
الصيد من أجله هو تحديد نهج يمكنه القيام بهذه الخطوات. كيف يمكنك فرز وتصنيف وتنظيم البيانات التي تأتي إلى الشركة في مثل هذه السرعات الشرسة؟
الخطوة 1: تحليل بياناتك غير المنظمة. من أين تأتي بياناتك غير المهيكلة ، وفي أي شكل؟ ما مقدار التخزين المستهلكة للبيانات ، وما هي التكلفة؟ أين يتم تخزين البيانات ، ومن يستخدمها؟ من يملك البيانات؟ كم عمر البيانات؟
جميع الأسئلة ذات المستوى الأعلى والتي يجب الإجابة عليها لكل نوع من البيانات غير المهيكلة التي لديك في شركتك.
الخطوة 2: تحديد صوامع البيانات. من المحتمل أن تكون بعض البيانات غير المهيكلة مملوكة من قبل أقسام مستخدمين محددة وقد تكون على أنظمة منفصلة. إذا كانت البيانات موجودة بشكل حصري داخل قسم مستخدم معين ، فإنها تعتبر “صومعة بيانات” لا يمكن الاستفادة منها من قبل شركة الإدارات الأخرى لأن هذه الإدارات لا يمكنها الوصول إلى البيانات. قد لا يتم استهلاك البيانات الموجودة في هذه الصوامع لما يمكن أن يكون مجموعة متنوعة من العمليات التجارية غير المستغلة. تخلق البيانات المروعة أيضًا مخاطر عندما تستخدم الإدارات المختلفة بيانات متباينة وتتمكن من اتخاذ قرارات العمل المتنافرة.
الهدف الأساسي في الخطوة 2 هو تحديد صوامع البيانات ، إلى جانب تحديد أنواع البيانات غير المهيكلة الموجودة في تلك الصوامع.
الخطوة 3: إعادة النظر في الاحتفاظ بالبيانات. ما مقدار هذه البيانات غير المهيكلة التي لا تضيف قيمة ، بما في ذلك مصافحة الشبكة “الضوضاء” ، أو البيانات القديمة أو القديمة بحيث لم يستخدمها أحد لسنوات؟
من خلال التوجيهات التي تقدم تكنولوجيا المعلومات وتخزين البيانات المركزية وأنظمة في مركز البيانات أو في أقسام المستخدمين ويجب مراجعة السحابة لتحديد البيانات التي يمكن التخلي عنها لأنها غير مفيدة. يجب مراجعة سياسات الاحتفاظ بالبيانات الداخلية والسحابة من قبل ذلك والمستخدمين النهائيين ، لذلك هناك فهم متفق عليه على أنواع البيانات غير المهيكلة التي سيتم الاحتفاظ بها وإلى متى.
قد تكون بعض هذه البيانات غير إلكترونية ، مثل كتالوج منتجات شركة المتشددين التي تم تخزينها في خزانة غرفة خلفية منذ الثمانينات.
أخيرًا ، يجب دمج الرؤية المالية في جهود التدبير المنزلي للبيانات. ما مقدار التسهيلات ومساحة القرص التي تحررها من خلال التخلص من البيانات غير المجدية ، وما هي المدخرات السنوية؟
الخطوة 4: تصنيف وتنظيم البيانات. بمجرد التخلص من البيانات غير المنظمة غير الضرورية ، حان الوقت لتصنيف وتنظيم البيانات التي تبقى. يمكن أن تكون هذه المهمة كثيفة العمالة لأنه يجب إجراء الكثير من تصنيف البيانات “باليد” ، حيث يقوم المستخدمون المطلعون بتطبيق علامات البيانات على كائنات البيانات. على سبيل المثال ، قد يتطلب ذلك وضع علامة على جميع القطع الأثرية للبيانات غير المهيكلة مع ملصق “منتج” لأنها تتكون من مستندات CAD و CAM و Photo و Video لمنتجات الشركة.
علامات البيانات هي الطريقة الوحيدة لتحديد كائنات البيانات غير المهيكلة والتنقل فيها حتى يتمكن الأشخاص من العثور على ما يبحثون عنه. لسوء الحظ ، فإن وضع علامات البيانات يستغرق وقتًا طويلاً ومحبطًا عندما يكون عدد كائنات البيانات غير المهيكلة ضخمة. يجب أيضًا توحيد علامات البيانات هذه والاتفاق عليها في جميع أنحاء المؤسسة بحيث يتم تبسيط استرجاع البيانات.
على الرغم من أن معظم المؤسسات لا يمكنها الالتفاف على بيانات “وضع العلامات اليدوية” ، فقد بدأنا في رؤية برامج وضع علامات البيانات الآلية تأتي إلى السوق التي يمكنها القيام بالعلامات تلقائيًا إذا تم منحها مجموعة من قواعد العمل. سيكون هناك أيضًا دعم مستقبلي من الأدوات التي تعمل بمواد الذكاء الاصطناعى والتي يمكن أن “تعلم” كيفية تقييم وتصنيف كائنات البيانات غير المهيكلة.
الخطوة 5: إثراء البيانات. دعنا نقول أن الشركة ABC تريد عرضًا لمحطة توليد الكهرباء. تأتي الكثير من البيانات لإعداد العرض في نماذج مثل المخططات وملفات PDF و Hardcopy ومراسلات البريد الإلكتروني. يجب تنظيف هذه البيانات غير المهيكلة ، إلى جانب البيانات المهيكلة التقليدية ، وتنسيقها وتطبيعها حتى تتمكن من التفاعل مع أنواع أخرى من البيانات في مستودع بيانات واحد يدعم عملية صنع القرار أثناء عملية العطاء.
هناك أيضًا حاجة إلى استيراد البيانات الخارجية من السحابة والأطراف الثالثة على عناصر مثل الخدمات اللوجستية والظروف الجوية في لغة المشروع ، بالإضافة إلى متطلبات التنظيمية والتقسيم المحلية.
يمكن لأدوات مثل ETL (تحميل التحويل) أتمتة الكثير من عمليات تنظيف وتنسيق البيانات ، لكنها لا تزال تتطلب كتابة قواعد العمل لتحويل البيانات. بالإضافة إلى ذلك ، يجب أن يتم تصنيف البيانات غير المهيكلة التي يتم تحويلها إلى مستودع البيانات مسبقًا ووضع علامة عليها من قبل المستخدمين النهائيين.
الهدف من الخطوة 5 هو إثراء البيانات حتى يتمكن من التفاعل مع جميع الأنواع الأخرى من البيانات لإنتاج صورة كاملة لعميل ، ومنتج ، وموقف ، وما إلى ذلك. هذا يساعد صانعي القرار في العمل كما يفكرون من خلال الاستراتيجية ، والتكتيكات ، والجداول ، والتسعير ، وما إلى ذلك.
من الناحية الواقعية ، سوف ينجح عدد قليل من الشركات في تسخير 100 ٪ من البيانات غير المهيكلة التي تتدفق إليها كل يوم ، لكنها يستطيع ابدأ في الحصول على مقبض على البيانات غير المهيكلة من خلال تحديد من أين تأتي البيانات ، حيث سينتهي بها الأمر إلى استضافتها ، وما هي عليه ، ومتى يمكن تجاهلها.
تتمثل الخطوة المتابعة والخطوة العالية في خرق الصوامى ، وبداية مستودع البيانات على مستوى الشركات التي تحتوي على بيانات منظمة وغير منظمة.
قد يتعين على الهدف النهائي المتمثل في تطوير بيانات مخصبة عالية الإثراء التي توفر قيمة العمل المثلى الانتظار حتى تنضج تصنيف البيانات الآلي وتكنولوجيات الذكاء الاصطناعى ، ولكن هناك الكثير مما يمكن أن يفعله الآن لتكون جاهزة لهذا الوقت.