تصنيف البيانات: ماذا ولماذا ومن يقدمها
عندما يتعلق الأمر إدارة البياناتنحن بحاجة إلى معرفة مكانه – ولكننا بحاجة أيضًا إلى معرفة ما هو.
ومع تزايد الضوابط التنظيمية، تولي الشركات الآن المزيد من الاهتمام لسيادة البيانات، خاصة عندما يتعلق الأمر بالبيانات الموجودة في السحابة، ولكن معرفة المعلومات التي تحتفظ بها بالضبط لا تقل أهمية.
هذا المفهوم – تصنيف البيانات – ليست جديدة. ولكن مع نمو البيانات غير المنظمة وعلى وجه الخصوص، يعد الحصول على صورة واضحة لجميع أصول البيانات أمرًا ضروريًا. وعلى نحو متزايد، تتطلع الشركات الآن إلى ذلك أدوات الذكاء الاصطناعي (AI). للمساعدة في هذا.
ما هو تصنيف البيانات ولماذا نحتاج إليه؟
قامت المنظمات منذ فترة طويلة بتنظيم البيانات حسب الوظيفة أو “المصنف الوصفي”، مثل ما إذا كان ملف موارد بشرية أو سجلات مبيعات. ثم يصنفون بواسطة الحساسية، والمعروفة أيضًا بمتطلبات التحكم. ثم هناك المعلومات المستندة إلى السياق، مثل متى وأين تم إنشاء البيانات، والسمات التقنية مثل نوع الملف أو حجمه.
يسمح التخزين السحابي منخفض التكلفة للمؤسسات بتخزين المزيد من البيانات لفترة أطول، مما يسمح لها باستخدام البيانات لذكاء الأعمال، وهو ما يعني في الوقت الحاضر بشكل متزايد تدريب نماذج الذكاء الاصطناعي.
ولكن يجب تنظيم هذه البيانات بشكل جيد حتى لا يكون من الصعب العثور عليها واستخدامها. وحماية تلك البيانات أمر حيوي أيضًا. حوكمة البيانات و إدارة البيانات تعتمد على التصنيف الفعال للبيانات. يعد تخزين البيانات أيضًا أقل كفاءة ما لم يكن لدى الشركة خطة قوية لتصنيف البيانات.
إن التصنيف اليدوي للبيانات، على الرغم من إمكانية ذلك، غير فعال وغير موثوق به ويصعب قياسه. على الرغم من أن المؤسسات يمكنها إنشاء سياسات تتطلب من المستخدمين تصنيف البيانات عن طريق إضافة تسميات أو علامات أو كلمات رئيسية، إلا أن هذا لا يعمل إلا مع التصنيفات الأوسع – مثل الحساسية – والملفات التي تم إنشاؤها حديثًا.
نظرًا لأن المؤسسات تقوم بجلب المزيد من البيانات من مصادر خارجية مثل تطبيقات الويب والعملاء وإنترنت الأشياء، فإن التصنيف الفعال للبيانات يحتاج حقًا إلى التشغيل الآلي. يعد تصنيف البيانات جزءًا أساسيًا من إدارة دورة حياة البيانات وهو ضروري لأمن البيانات.
أدوات تصنيف البيانات
وكما يشير المحللون في شركة جارتنر، فإن التصنيف اليدوي للبيانات يمكن أن يؤدي إلى سوء التصنيف بسبب خطأ بشري. كما أن التصنيفات والعلامات “أحادية البعد” و”لا توفر سياقًا كافيًا لزيادة ضوابط البيانات التنظيمية”. أنها تفشل في التقاط السياق وعادة ما تكون ثابتة. يمكن أيضًا استخدام البيانات لأغراض مختلفة خلال دورة حياتها.
تعمل الأتمتة على حل بعض هذه المشكلات عن طريق إضافة سياق، بالإضافة إلى النظر في محتوى البيانات وموقعها والمستندات المجاورة. وفقًا لشركة Gartner، تعمل أدوات التصنيف القياسية بشكل جيد مع أنواع البيانات القياسية وفي المؤسسات التي لديها بالفعل بيانات منسقة بشكل جيد. تصبح المهمة أكثر صعوبة مع زيادة استخدام المؤسسات للبيانات غير المنظمة.
يستخدم البائعون بشكل متزايد التعلم الآلي للنظر في مجموعات البيانات والمستندات، لاكتشاف العناصر التي يمكنهم تحديدها وتسجيلها وتتبعها. ولكن، كما تشير مؤسسة جارتنر، فإن أدائها يمكن أن يكون محدودًا عندما يتعلق الأمر بمعالجة بيانات الملكية.
ومع ذلك، يقدم السوق مجموعة من أدوات تصنيف البيانات، بدءًا من التطبيقات المستقلة إلى تلك المدمجة في قواعد البيانات أو تطبيقات المؤسسات، وخاصة ذكاء الأعمال. يتم وصفها أحيانًا على أنها كتالوجات بيانات المؤسسة.
هناك نهج آخر يتمثل في تجميع التصنيف والفهرسة كجزء من تطبيقات إدارة بيانات المؤسسة والامتثال الأوسع. ومن غير المستغرب أن يتطلع البائعون الآن إلى دمج الذكاء الاصطناعي في أدواتهم لتحسين الدقة وتقليل الحاجة إلى وضع العلامات اليدوي.
مدخلات الذكاء الاصطناعي ومخرجات البيانات
تصنيف البيانات هو تطبيق طبيعي للذكاء الاصطناعي. استخدم البائعون التعلم الآلي في أدوات فهرسة البيانات لفترة من الوقت. إنها ليست حالة استخدام تعتمد على الذكاء الاصطناعي التوليدي (GenAI) أو نماذج اللغات الكبيرة (LLMs)، على الرغم من أن بعض الأدوات تستخدمها الآن.
يستخدم بعض بائعي الأدوات التعلم الآلي والشبكات العصبية وأشجار القرار والانحدار اللوجستي. تقوم هذه النماذج بتدريب نماذج الذكاء الاصطناعي على العثور على أنماط في البيانات، وخاصة البيانات غير المنظمة. ويمكن بعد ذلك استخدام النماذج لتطبيق العلامات التلقائية على البيانات.
يمكن للعملاء بعد ذلك اختبار النماذج وتحسينها قبل النشر. يعد هذا أمرًا مهمًا نظرًا لاختلاف مجموعات بيانات العملاء وقد لا تفهم الأداة المبتكرة تفاصيل بيانات ذلك العميل أو العلاقة بين البيانات المختلفة داخل المؤسسة. يمكن استخدام نموذج الذكاء الاصطناعي الفعال لإثراء البيانات الوصفية المرتبطة بملف أو مستند.
يمكن بعد ذلك استخدام بيانات التعريف لإنشاء كتالوج لبيانات المؤسسة، وبالتالي، ضوابط أكثر فعالية. ومن المزايا الأخرى للأنظمة الآلية والقائمة على الذكاء الاصطناعي أنها ديناميكية. إذا قامت المؤسسة بإعادة تصنيف البيانات – بسبب التغييرات التنظيمية، على سبيل المثال – فيجب أن تكون أداة تصنيف البيانات قادرة على تحديث الكتالوج بسرعة.
يمكن بعد ذلك استخدام بيانات التعريف والكتالوج للاحتفاظ بالبيانات وفي أدوات الأمان ومنع فقدان البيانات، بالإضافة إلى تلبية قواعد إقامة البيانات. من الصعب القيام بذلك مع البيانات غير المنظمة، ولكن إدارة البيانات القوية أمر حيوي لذكاء الأعمال وتطوير الذكاء الاصطناعي.
مقدمو تصنيف البيانات الرئيسيون
توفر Microsoft مصنفات البيانات المستندة إلى الذكاء الاصطناعي من خلال منتج Purview الخاص بها. وتقول إن هؤلاء قد تم تدريبهم مسبقًا على بيانات الأعمال ومعرفة مجال Microsoft والبيانات الاصطناعية. Purview عبارة عن خدمة أوسع لإدارة البيانات والامتثال وإدارة المخاطر والتي يتم تشغيلها على Azure.
تقدم شركة IBM كتالوج المعرفة الخاص بها لتصنيف البيانات وإدارتها باستخدام الذكاء الاصطناعي والتعلم الآلي. يتم تشغيله كتطبيق SaaS، أو في Cloud Pak for Data من IBM. تستخدم شركة IBM شهادات LLM لإثراء بيانات التعريف.
تم إيقاف أداة تصنيف المستندات الخاصة بـ SAP في عام 2023 وتم استبدالها بخدمة استخراج معلومات المستندات المستندة إلى الذكاء الاصطناعي.
توفر Oracle Cloud Infrastructure “حصاد بيانات التعريف” من المصادر المستندة إلى السحابة وكتالوج بيانات OCI للشبكات المحلية والخاصة.
تتضمن خيارات تصنيف البيانات في Google Cloud كتالوج البيانات، الذي ينشئ قوائم جرد أصول البيانات من مصادر Google Cloud بما في ذلك BigQuery وعروض الذكاء الاصطناعي الخاصة به، ومن التخزين السحابي، ومن مصادر البيانات المخصصة من خلال واجهة برمجة التطبيقات.
لدى AWS كتالوج بيانات Glue، والذي يتضمن الاكتشاف الآلي للبيانات.
هناك أيضًا مجموعة واسعة من منصات البيانات والتحليلات المتخصصة التي توفر تصنيف البيانات وإدارتها، إما بشكل مباشر أو كجزء من منصات ذكاء الأعمال والبيانات. وتشمل هذه الشركات Alatian وAtaccama وAtlan وCollibra وDatabricks (من خلال Unity Catalog) وQlik وTableau بالإضافة إلى شركة Informatica القوية في مجال البيانات ومورد أمن البيانات Varonis.