طريق لتحسين هندسة البيانات

يمثل مشهد البيانات اليوم تحديات غير مسبوقة للمؤسسات ، وذلك بسبب الحاجة إلى معالجة الشركات الآلاف من المستندات في العديد من تنسيقات البيانات. هذه ، كما Bogdan Raduta ، رئيس الأبحاث لـ Flowx.ai، يشير إلى أن يمكن أن تتراوح بين PDFs وجداول البيانات ، إلى الصور ، إلى الوسائط المتعددة ، والتي تحتاج جميعًا إلى جمعها ومعالجتها في معلومات ذات معنى.
كل مصدر بيانات له نموذج ومتطلبات البيانات الخاصة به ، وما لم يتم جمعها بطريقة ذات معنى ، ينتهي الأمر بالتعامل مع صوامع البيانات. قد يعني ذلك أن المستخدمين يجبرون على الانتقال بين تطبيق وآخر ، وقطع المعلومات ولصقها من أنظمة مختلفة للحصول على رؤى مفيدة لدفع اتخاذ القرارات المستنيرة.
ومع ذلك ، فإن مقاربات هندسة البيانات التقليدية تكافح مع تعقيد سحب البيانات بتنسيقات مختلفة. “في حين التقليدية ETL [extract, translate and load] يقول رادوتا: “إن خطوط أنابيب البيانات تتفوق في معالجة البيانات المهيكلة ، فهي تتعثر عند مواجهة غموض وتغير المعلومات في العالم الحقيقي”. ما يعنيه هذا هو أن الأنظمة القائمة على القواعد تصبح هشة ومكلفة للحفاظ عليها مع نمو مجموعة متنوعة من مصادر البيانات.
في تجربته ، حتى منصات التكامل الحديثة ، المصممة لواجهة برمجة التطبيقات (API) ، تكافح مع الفهم الدلالي المطلوب لمعالجة محتوى اللغة الطبيعية بفعالية.
مع كل الضجيج المحيط بالذكاء الاصطناعي (AI) والبيانات ، يجب أن تكون صناعة التكنولوجيا قادرة حقًا على التعامل مع هذا المستوى من عدم تجانس البيانات. لكن، جيسي أندرسون ، المدير الإداري لمعهد البيانات الضخمةيجادل أن هناك نقصًا في فهم أدوار الوظائف والمهارات اللازمة لعلوم البيانات.
أحد المفاهيم الخاطئة ، وفقًا لأندرسون ، هو أن علماء البيانات قد أخطأوا تقليديًا للأشخاص الذين يقومون بإنشاء نماذج ويقومون بجميع الأعمال الهندسية المطلوبة. لكنه يقول: “إذا كنت تريد أن تسمع أي شيء لا يمكن القيام بشيء يتعلق بالبيانات ، فما عليك سوى الذهاب إلى” لا فريق “لتخزين البيانات ، وسيتم إخبارك ، لا ، لا يمكن القيام بذلك ‘. “
ويقول إن تصور الواقع لا يبشر بالخير للصناعة ، لأن مشاريع البيانات لا تذهب إلى أي مكان.
تطوير عقلية هندسة البيانات
يعتقد أندرسون أن جزءًا من الارتباك يأتي من التعريفتين المختلفين تمامًا لدور هندسة البيانات.
تعريف واحد يصف أ لغة الاستعلام المنظمة (SQL)-شخص يركز. هذا ، كما يقول ، هو شخص يمكنه سحب المعلومات من مصادر بيانات مختلفة عن طريق كتابة استعلامات باستخدام SQL.
التعريف الآخر هو مهندس برمجيات له معرفة متخصصة في إنشاء أنظمة البيانات. يقول أندرسون إن هؤلاء الأفراد يمكنهم كتابة التعليمات البرمجية وكتابة استفسارات SQL. والأهم من ذلك ، أنه يمكنهم إنشاء أنظمة معقدة للبيانات حيث يعتمد الشخص الذي يركز على SQL تمامًا على أنظمة أقل تعقيدًا ، وغالبًا ما يعتمد على أدوات منخفضة الرمز أو عدم الرمز.
يقول: “إن القدرة على كتابة التعليمات البرمجية هي جزء رئيسي من مهندس بيانات هو مهندس برمجيات”. نظرًا لأن المتطلبات المعقدة تأتي من تصميم الأعمال والنظام ، يقول أندرسون إن مهندسي البيانات لديهم المهارات اللازمة لإنشاء هذه الأنظمة المعقدة.
ومع ذلك ، إذا كان من السهل إنشاء فريق هندسة البيانات المناسب في المقام الأول ، فسيقوم الجميع بذلك. يقول أندرسون: “بعض التغييرات التنظيمية والتقنية العميقة ضرورية”. “سيتعين عليك إقناع مستوى C لتمويل الفريق ، وإثارة الموارد البشرية بأنه سيتعين عليك دفعها جيدًا ، وإقناع العمل بأن العمل مع فريق هندسة البيانات المختصة يمكنه حل مشاكل البيانات الخاصة بهم.”
في تجربته ، فإن الحصول على المسار الصحيح لهندسة البيانات يتطلب جهداً متضوراً ، مما يعني أنه لا يتطور بشكل عضوي مع قيام الفرق بمشاريع مختلفة.
دروس من العلم
استدعاء مشكلة حديثة مع الوصول إلى البيانات ، جاستن برونت ، مدير المنتج في Tetrascienceيقول: “عندما حاولت شركة أدوية كبرى مؤخرًا استخدام الذكاء الاصطناعي لتحليل سنة من بيانات المعالجة الحيوية ، فإنها تضرب جدارًا مألوفًا لكل مهندس بيانات: كانت بياناتها” يمكن الوصول إليها “تقنيًا ولكنها غير صالحة للاستعمال”.
يقول برونت إن قراءات أدوات الشركة قد جلست بتنسيقات ملكية ، لذا فإن البيانات الوصفية الحرجة تقع في أنظمة غير متصلة. ما يعنيه هذا ، كما يقول ، هو أن الأسئلة البسيطة ، مثل الاستفسار عن شروط تجربة معينة ، تتطلب عمل المباحث اليدوي عبر قواعد بيانات متعددة.
“يسلط هذا السيناريو الضوء على حقيقة لاحظتها مرارًا وتكرارًا – تمثل البيانات العلمية اختبار الإجهاد النهائي لبنية بيانات المؤسسات. في حين أن معظم المؤسسات تتصارع مع صوامع البيانات ، فإن البيانات العلمية تدفع هذه التحديات إلى حدودها المطلقة “.
على سبيل المثال ، يعتمد تحليل البيانات العلمية على مجموعات رقمية متعددة الأبعاد ، والتي يقول برونت إنها تأتي من “مجموعة مذهلة من الأدوات الحساسة ، والملاحظات غير المهيكلة التي كتبها علماء مقاعد البدل “
بالنسبة لـ Pront ، هناك ثلاثة مبادئ رئيسية من هندسة البيانات العلمية يجب أن يكون لدى أي منظمة تتطلع إلى تحسين هندسة البيانات قبضة. هذه هي التحول من البنية التي تركز على الملفات إلى البيانات ، وأهمية الحفاظ على السياق من المصدر من خلال التحول عبر هندسة البيانات ، والحاجة إلى أنماط الوصول إلى البيانات الموحدة التي تخدم احتياجات التحليل الفوري والمستقبلي.
وفقًا لـ Pront ، تقدم التحديات التي يواجهها مهندسو البيانات في علوم الحياة دروسًا قيمة يمكن أن تفيد أي مؤسسة كثيفة البيانات. “الحفاظ على السياق ، وضمان سلامة البيانات وتمكين سير العمل التحليلي المتنوعة ينطبق بكثير إلى ما هو أبعد من المجالات العلمية وحالات الاستخدام” ، كما يقول.
مناقشة التحول إلى أ الهندسة المعمارية التي تركز على البياناتويضيف: “مثل العديد من مستخدمي الأعمال ، ينظر العلماء تقليديًا إلى حاوية البيانات الأساسية الخاصة بهم. ومع ذلك ، فإن معلومات قطاع الملفات إلى صوامع محدودة الوصول وتجريد السياق الحاسم. في حين أن هذا يعمل مع العالم الفردي الذي يحلل نتائج الفحص الخاصة بهم للحصول على بيانات في دفتر المختبرات الإلكترونية (ELN) أو نظام إدارة المعلومات المعملي (LIMS) ، فإنه يجعل أي تحليل إجمالي أو استكشافي أو AI و ML [machine learning] وقت الهندسة وكثافة العمل. “
يعتقد برونت أن هندسة البيانات الحديثة يجب أن تركز على المعلومات ، والحفاظ على العلاقات والبيانات الوصفية التي تجعل البيانات ذات قيمة. بالنسبة لـ Pront ، هذا يعني استخدام المنصات التي تلتقط وصيانة نسب البيانات ومقاييس الجودة وسياق الاستخدام.
فيما يتعلق بتكامل البيانات ، يقول: “حتى تعديلات البيانات البسيطة في العمل العلمي ، مثل حذف الصفر في القراءة العشرية ، يمكن أن تؤدي إلى تفسير سوء التفسير أو الاستنتاجات غير الصالحة. هذا يدفع الحاجة إلى الحصول على البيانات غير القابلة للتغيير والمعالجة المتكررة التي تحافظ على القيم الأصلية مع تمكين طرق عرض البيانات المختلفة. “
في الصناعات الخاضعة للتنظيم مثل الرعاية الصحية وقطاع الأدوية والخدمات المالية ، فإن تكامل البيانات من الاستحواذ في ملف أو نظام المصدر من خلال تحويل البيانات وتحليلها غير قابلة للتفصيل.
بالنظر إلى الوصول إلى البيانات للعلماء ، يقول برونت إن هناك توترًا بين إمكانية الوصول الفوري والفائدة المستقبلية. من الواضح أن هذا موقف تواجهه العديد من المنظمات. “يريد العلماء وصولهم إلى البيانات السلس في أدوات التحليل المفضلة لديهم ، لذلك ينتهي بهم المطاف بأدوات معممة على سطح المكتب مثل جداول البيانات أو برامج التصور المترجمة. هكذا ينتهي بنا المطاف بمزيد من الصوامع “.
ومع ذلك ، كما يلاحظ Pront ، فإنهم يستخدمون أيضًا مجموعات البيانات المستندة إلى مجموعة النظراء مع أدوات التحليل الخاصة بهم لضمان نفس التحليل السريع في حين يستفيد المؤسسة بأكملها من الحصول على البيانات واستعدادها للتطبيقات المتقدمة ، وتدريب الذكاء الاصطناعي ، وعند الحاجة إلى التقديمات التنظيمية. يقول بيانات البحيرة بنيت على تنسيقات التخزين المفتوحة مثل دلتا وجبل الجليد استجابة لهذه الاحتياجات ، مما يوفر حوكمة موحدة وأنماط وصول مرنة.
تدفقات البيانات الهندسية
بالعودة إلى التحدي المتمثل في فهم جميع أنواع البيانات المختلفة التي تحتاجها المؤسسة إلى معالجتها ، كما لاحظت Raduta من Flowx.ai سابقًا ، فإن ETL لا تقل عن ما تحتاجه الشركات الآن.
أحد المجالات الواعدة في الذكاء الاصطناعي الذي طوره قطاع التكنولوجيا هو نماذج لغة كبيرة (LLMS). يقول رادوتا إن LLMs تقدم نهجًا مختلفًا بشكل أساسي لهندسة البيانات. بدلاً من الاعتماد على قواعد التحول الحتمية المتأصلة في أدوات ETL ، يقول: “يمكن أن تفهم LLMs السياق واستخراج المعنى من المحتوى غير المنظم ، ويحول أي مستند فعليًا إلى مصدر بيانات قابل للاستعلام.”
بالنسبة إلى Raduta ، هذا يعني أن LLMs تقدم بنية جديدة تمامًا لمعالجة البيانات. في مؤسستها تكمن طبقة ابتلاع ذكية يمكنها التعامل مع مصادر المدخلات المتنوعة. ولكن على عكس أنظمة ETL التقليدية ، تقول رادوتا إن طبقة الابتلاع الذكية لا تستخرج المعلومات من مصادر البيانات فحسب ، بل لديها القدرة على فهم ما تقوله جميع مصادر البيانات المختلفة التي تقولها بالفعل.
من غير المرجح أن يكون هناك نهج واحد لهندسة البيانات. يحث Pront من Tetrascience قادةها على النظر في هندسة البيانات كممارسة تتطور مع مرور الوقت. كما يشير أندرسون معهد البيانات الكبيرة ، فإن المهارات اللازمة لتطوير هندسة البيانات ، وجمع مهارات البرمجة ومهارات علمية البيانات التقليدية بطريقة تعني أن قادة تكنولوجيا المعلومات سيحتاجون إلى إقناع مجلس الإدارة وأفراد الموارد البشرية الخاصة بهم لجذب مهارات هندسة البيانات الصحيحة. سوف تحتاج إلى دفع علاوة للموظفين.