البودكاست: كيفية الحصول على قيمة من البيانات غير المهيكلة

نتحدث إلى مؤسس Nasuni وكبير موظفي التكنولوجيا (CTO) Andres Rodriguez حول الخصائص اللازمة من التخزين لاستخدام مثالي للبيانات غير المهيكلة في المؤسسة ، وكذلك التحدي المتمثل في مقياسه. يقول إن السحابة قد غيرت كل شيء ، مع نموذج العمل السحابي لتوفير مخطط لمجموعة واحدة من التخزين يمكن الوصول إليها من أي مكان. كما يقول إن المؤسسات تحتاج إلى تصنيف البيانات ووضع علامة عليها لإنشاء بيانات تعريف غنية يمكنها تعزيز المعرفة الشركات والوصول إليها ، وكذلك للوصول إليها من أجل الذكاء الاصطناعي (AI) ، مثل VIA بروتوكول سياق النموذج (MCP) الموصلات. ما هي طبيعة العقبات التي تحول دون الاستخدام الأمثل للبيانات غير المهيكلة في المؤسسة؟ انها حقا كل شيء عن النطاق. أعني ، إذا عدت إلى البيانات غير المهيكلة ، فهي جميع الملفات في خوادم الملفات ، ناس [network-attached storage]، إلخ. كل هذا المنتج العمل. لذلك ، إذا كنت شركة هندسة ، فهي رسومات تصميم. إذا كنت شركة تصنيع ، فهي رسومات ومحاكاة تصميم. كل ذلك ينتهي في الملفات ، في أنظمة الملفات للمؤسسة. وفي كل مؤسسة ، بالإضافة إلى ذلك ، هناك مستندات Office الكلاسيكية - Excel و PowerPoints ومستندات Word و PDFs. تلك عامة في جميع الصناعات. وهكذا ، ينتهي بك الأمر إلى هذا النوع من المستودعات المحتملة الضخمة التي يمكن استخراجها لإضافة قيمة إلى المنظمة. ولكن التحدي هو ، كيف يمكنك الوصول إليه؟ كيف يمكنك التحكم في الوصول إليها في نفس الوقت الذي يمكنك الوصول إليه؟ ثم ، كيف يمكنك توصيله بالأدوات التي ستمنحك نظرة ثاقبة على تلك البيانات؟ والقيام بذلك على نطاق واسع يمثل تحديًا هائلاً حقًا. لذا ، ما الذي يحتاجه العملاء من الطريقة التي يتم بها تخزين البيانات غير المهيكلة حتى يتمكنوا من الحصول على أكبر قدر ممكن من البصيرة؟ أول شيء هو أن هناك الكثير منه في المنظمات لدرجة أن ما ينتهي به الأمر مع الأساليب التقليدية هو أن ينتهي بك الأمر مع الكثير من صوامع البيانات. كما تعلمون ، يتم تخزين البيانات في الأجهزة ، والأجهزة في كل مكان ، وما إلى ذلك. إذا كانت منظمة كبيرة ، فقد يكون هناك مواقع جغرافية مختلفة حيث يوجد الموظفون ، ويحتاجون إلى الوصول عالي الأداء إلى الملفات في تلك المواقع. لذلك ينتهي بك المطاف بناء صوامع لهؤلاء. يمكن أن تكون مجرد القدرة. تنفد السعة في خادم ملفات واحد ، لذلك تقوم بنشر واحد آخر وآخر ، وينتهي بك الأمر مع هذا العدد المذهل من خوادم الملفات. لذلك ، عندما تتطلع إلى القيام بأشياء ذات قيمة مع البيانات ، فإنك تدرك أنه أصبح مستحيلًا لأن البيانات في العديد من الصوامع المختلفة، ومن الصعب الوصول إلى الصوامع وتجميعها بأي نوع من الطرق المنطقية. غيرت السحابة كل ذلك. لقد أدركت العديد من المؤسسات ، وخاصة المؤسسات الكبيرة التي عززت بياناتها غير المهيكلة ، وبيانات الملفات الخاصة بها ، في السحابة ، هذا المكسب الهائل ، وهو أن البيانات يتم دمجها الآن في مساحة منطقية واحدة قابلة للتطوير بلا حدود ، وهي متوفرة على مستويات عالية جدًا من الأداء من أي مكان في العالم. السحابة لا حصر لها والسحابة في كل مكان. وهكذا ، هذه قطعة أساسية لا تصدق بالنسبة لهم لتتمكن من الاستفادة من مستودع البيانات هذا ، هذا مستودع البيانات غير المهيكلة ، وجمع رؤى من البيانات. ما هي التقنيات التي تدعمها الاستخدام الأمثل للبيانات غير المهيكلة للعملاء ، وخاصة في عصر الذكاء الاصطناعي هذا؟ أعتقد أن هناك عدة قطع. على المستوى التأسيسي ، تريد التكنولوجيا التي تسمح بتوحيد NAS. أحد تخصصاتنا هو توفير هذا النوع من NAS ، الممكّن بالسحابة ، مما يمنحك النطاق والأداء العالي في أي مكان تريده. هذا هو أول لبنة بناء. بعد ذلك ، علاوة على هذه الكتلة ، يجب أن يكون لديك أدوات إدارة بيانات غير منظمة تتيح لك أخذ هذا المستودع الهائل والقيام بذلك على نطاق واسع. بالنسبة لكل ما أتحدث عنه ، فأنت تقاتل الرياح المعاكسة على نطاق واسع ، لذلك تحتاج إلى الحصول على التكنولوجيا التي تسمح لك بالوصول إلى مئات الملايين أو مليارات الملفات والبطيخ من التخزين ، وإلا ، فسوف ينتهي بك الأمر إلى شل في جهودك من خلال النطاق الهائل للمشكلة. لذلك ، في هذه الطبقة التالية من إدارة البيانات غير المهيكلة ، تريد أن يكون لديك أدوات قابلة للتطوير للغاية تسمح لك بتصنيف البيانات ، وبيانات العلامات ، وتعيين عناصر التحكم في الوصول على مستوى عالمي للبيانات - بمعنى آخر ، تنظيم البيانات. أعني ، إذا نظرت إلى ما يحاول الناس القيام به الآن مع الذكاء الاصطناعي واكتساب رؤى من الذكاء الاصطناعي ، يمكن أن يعزى فشل معظم هذه المشاريع إلى نقص بيانات الجودة الكافية في LLM [large language models]. في مدرسة الهندسة ، اعتادوا على تعليمنا ، فأنت تضع القمامة في نموذج ، يمكنك الحصول على القمامة من النموذج. الأولوية الأولى هي تنظيف البيانات التي تدخل في النماذج الخاصة بك. هذا يعني الأدوات التي تسمح لك بالقيام بذلك على نطاق واسع مع البيانات غير المهيكلة العادية التي تنتجها مؤسستك ، بحيث يتم تحديث مجموعة البيانات مع ذلك مع تطور مجموعة البيانات تلقائيًا. ليس لأنك تقوم ببعض النوع الخاص من الرفع والجهد ، ولكن نظرًا لأنك قمت بالفعل بإعداد خطوط الأنابيب وجميع الأنظمة تقوم تلقائيًا بتنظيف البيانات وإتاحة البيانات لنماذج التعلم الآلي. هذه هي الطريقة التي تحصل بها على نظام لا يعمل فقط مرة واحدة عند تشغيل المشروع ، ولكنه يضيف رؤى إلى المنظمة بشكل مستمر. وهكذا ، فإن الطبقة الأخيرة هي هذا النوع من المكونات الإضافية للأغراض العامة في جميع طرز LLM المتاحة. لن يكون هناك واحد واحد سوف تلبي جميع احتياجاتك. يجب أن يكون لديك نوع من المحور يسمح لك بالاتصال. المصطلح الذي يستخدمه الأشخاص الآن هو واجهات MCP التي تمنحك إمكانية الوصول إلى نماذج مختلفة. هذا النوع من التقييس على مستوى النماذج أمر بالغ الأهمية لأن مجموعة البيانات لن تتغير. أعني ، سيتغير ذلك عندما يتغير العمال ، لكنه لن يتغير بناءً على النموذج الذي تستخدمه. يجب أن تكون قادرًا على توصيل أي نموذج هو الأنسب للهدف الذي تحاول تحقيقه. وإذا لم ينجح ذلك ، أو إذا كنت تريد ترقية ، أو إذا كنت ترغب في تبديل البائعين ، فيجب أن تكون قادرًا على تغيير ذلك. هذا ما نسميه الربط المتأخر ، وبعد ذلك في المشروع ، يجب أن تكون قادرًا على اتخاذ هذا القرار. وبعد ذلك ، بالطبع ، تحتاج إلى إغلاق الحلقة ورؤية نوع من الإبلاغ عن الواجهة - أشياء مثل Tableau - الرؤى التي تحصل عليها من البيانات. ما يريد عملاؤنا فعله عادة هو إلقاء نظرة على بيانات المشروع وتقديره ، هل سيكون هذا المشروع في الوقت المحدد؟ هل سيكون على الميزانية بناءً على إشارات قادمة من البيانات غير المهيكلة؟ أو تريد أن تكون قادرًا على القيام بالامتثال على مستوى أعلى من المعرفة. ربما تريد أن تفهم ليس فقط ما هو موجود في الملفات ، ولكن كيف يتفاعل المستخدمون النهائيون مع تلك الملفات ، وكيف تغيرت هذه الملفات بمرور الوقت. يمكن أن يمنحك ذلك رؤى هائلة في سلوك بياناتك غير المهيكلة ، وكيف تستخدم مؤسستك أو عدم استخدام هذه البيانات. لذلك ، يتعلق الأمر حقًا بدمج تلك الطبقات الثلاث ؛ طبقة توحيد NAS التأسيسية أو طبقة توحيد البيانات غير المهيكلة ، والتي تدور حول التخزين والتأكد من حماية البيانات ، مع التأكد من أن لديك السعة والأداء العالي. بعد ذلك ، توجد طبقة إدارة بيانات غير منظمة تتيح لك تنظيم البيانات وإعدادها بحيث تجعلها متاحة للطبقة الثالثة ، وهي الواجهة لجميع نماذج التعلم الآلي. أعتقد أن طبقة التصنيف والتصنيف جزء من الأشياء تدور حول البيانات الوصفية. هل سيكون هذا هو الحال؟ هذا صحيح. في بعض الأحيان ، يمكنك تسخير البيانات للتوصل إلى بيانات التعريف ، ولكن القواعد تعتمد دائمًا على البيانات الوصفية. لذا ، فإن الفكرة هي أن لديك هيكل غني. هذا هو السبب في أن هذه الطبقة الأولى ، توحيد NAS ، مهمة للغاية. ذلك لأنك تحتاج إلى بنية غنية في نظام الملفات الخاص بك يتيح لك التعليق على بياناتك باستخدام بيانات تعريف جديدة للسماح بتعيين القواعد بناءً على تلك البيانات الوصفية التي تتحكم في التنشيط ، وسلوك البيانات غير المهيكلة. Source link