بناء أفضل خطوط أنابيب البيانات
تعمل خطوط أنابيب البيانات – عملية تنظيم البيانات من مصادر متعددة، وإعداد البيانات لاستيعابها بشكل صحيح، ثم تعبئة البيانات إلى الوجهة – على إنشاء سير عمل البيانات بين فرق علوم البيانات وتكنولوجيا المعلومات ووحدات الأعمال.
تقليديًا، كانت خطوط أنابيب البيانات خطية، مما يجعل عملية الاستخراج والتحويل والتحميل (ETL) هي القاعدة. تقوم الشركات باستخراج البيانات من المصادر، وتحويل البيانات وتنظيفها، ثم تحميلها إلى مستودع بيانات أو بحيرة بيانات.
ولكن مع قيام تقنيات الذكاء الاصطناعي بدفع التحولات الرقمية بشكل متزايد، يجب أن تتطور خطوط أنابيب البيانات لتصبح غير خطية وتتجنب نقل البيانات قدر الإمكان لاستيعاب وزن البيانات غير المنظمة والطبيعة التكرارية للذكاء الاصطناعي.
خطوط أنابيب البيانات غير الخطية
يوضح كريشنا سوبرامانيان، المدير التنفيذي للعمليات والمؤسس المشارك لشركة Komprise، عبر البريد الإلكتروني أنه يتم إنشاء البيانات اليوم في كل مكان – الحافة، ومركز البيانات، والسحابة.
وهذا يعني أنه يجب أيضًا توزيع معالجة البيانات، مما يعني أن خطوط أنابيب البيانات لم تعد تتطلب نقل جميع البيانات إلى بحيرة بيانات مركزية أولاً قبل المعالجة. وتقول: “يتطلب هذا تقنيات جديدة لخطوط نقل البيانات تركز على البيانات غير المنظمة والذكاء الاصطناعي”.
وهذا يعني أن استخدام البنى القابلة للتركيب، والتي تسمح بخدمات البيانات المعيارية وواجهة برمجة التطبيقات (API) الأولى، سيمكن الشركات من مزج أفضل الحلول ومطابقتها لاحتياجات خطوط أنابيب البيانات الخاصة بها.
يقول سوبرامانيان إن أكبر تطور في خطوط أنابيب البيانات هو إعادة الهيكلة لمعالجة البيانات غير المنظمة والذكاء الاصطناعي. وتقول: “سنشهد تحولًا هائلاً في فهرسة البيانات، وإدارة البيانات، والمعالجة المسبقة للبيانات، وتقنيات سير عمل البيانات لتلبية هذه الحاجة الناشئة الهائلة”.
توسيع نطاق خطوط الأنابيب عبر مصادر متعددة
يشرح راهول راستوجي، مدير تكنولوجيا المعلومات في SingleStore، عبر البريد الإلكتروني أن توسيع نطاق خطوط البيانات يمكن أن يضيف طبقات إضافية من التعقيد عندما يتعلق الأمر بضمان دقة البيانات واتساقها وخصوصيتها وإدارتها وأمانها عبر مصادر مختلفة – خاصة وأن المزيد من المؤسسات أصبحت متعطشة للبيانات بشكل متزايد.
ويقول إنه عندما تتوسع خطوط الأنابيب، يصبح من الصعب تحقيق زمن استجابة منخفض – وهو عنصر حاسم لمواكبة الوتيرة السريعة اليوم – حيث تستغرق معالجة مجموعات البيانات الضخمة وقتًا أطول. ويقول: “يجب أيضًا توسيع نطاق البنية التحتية الأساسية، مثل التخزين والحوسبة، بشكل فعال لتلبية متطلبات خطوط أنابيب البيانات المتزايدة”.
هناك اعتبار آخر وهو تلبية معايير خصوصية البيانات والحوكمة، والتي قد يكون من الصعب مواكبتها مع استمرار تطور اللوائح.
يقول راستوجي إنه للتغلب على هذه العقبات، يجب على المؤسسات اعتماد منصات بيانات قابلة للتطوير مصممة للتعامل مع معالجة البيانات على نطاق واسع واستخدام تقنيات مثل التقسيم والتقسيم (الذي يوزع البيانات عبر خوادم متعددة) لتحسين كفاءة المعالجة وقابلية التوسع. ويضيف: “يجب عليهم أيضًا الاستفادة من الحلول السحابية التي توفر بنية تحتية وتخزينًا قابلين للتطوير، إلى جانب فوائد مثل آليات التوسع التلقائي لضبط الموارد بناءً على متطلبات عبء العمل”.
تحليلات في الوقت الحقيقي، وتحسين التعاون
ويشير Rastogi إلى أن التحليلات في الوقت الفعلي تلعب دورًا مهمًا في تحسين خطوط أنابيب البيانات. ويقول: “يتيح الاكتشاف والتنفيذ معالجة مشكلات البيانات في الوقت الفعلي، مما يسمح للشركات بتقديم رؤى قابلة للتنفيذ واستراتيجيات قابلة للتكيف”.
لكي تتمكن المؤسسات من تجربة هذه الفوائد، ستحتاج إلى نشر نظام أساسي للبيانات يمكنه معالجة البيانات بالمللي ثانية بدلاً من الدقائق، كل ذلك أثناء اكتشاف جودة البيانات والشذوذ ومشكلات الاكتمال أثناء حركة البيانات.
ويضيف أن التعاون في مجال البيانات بين فرق البيانات المختلفة أمر بالغ الأهمية لضمان أن جميع المشاركين يتحدثون نفس اللغة.
من المهم أن يكون لدى فرق البيانات فهم مشترك لتعريفات البيانات لكل من المقاييس والأبعاد ومنصة مشتركة لمعالجة البيانات – على سبيل المثال بناء خطوط الأنابيب وتوسيعها.
يوضح راستوجي أنه على الرغم من أنه من السهل نسبيًا دفع توحيد تقنيات معالجة البيانات ومنصات البيانات، إلا أنه يجب على الشركات النظر في حلول فهرسة البيانات والمسارد لتحقيق اتساق تعريفات البيانات.
ويشير إلى أن “هناك اعتبارًا آخر يتمثل في تنفيذ الطبقات الدلالية للمؤسسة حسب مجالات الموضوع، والاستثمار في العمليات من خلال أبطال البيانات لضمان تفسير الجميع للبيانات بنفس الطريقة”.
إن وجود جميع البيانات في مكان واحد يحفز أيضًا التعاون ويوفر فرصًا لمؤسسات البيانات لإنشاء هياكل بيانات متكاملة مشتركة يمكن لعلماء البيانات استخدامها لتدريب النماذج أو مطوري التطبيقات لبناء تطبيقات ذكية.
يشير سوبرامانيان إلى أن خطوط أنابيب البيانات يمكنها إنشاء عمليات سير عمل البيانات بين فرق علوم البيانات وتكنولوجيا المعلومات ووحدات الأعمال. وتقول: “تخيل لو كان بإمكان المستخدمين الذين يقومون بإنشاء البيانات وضع علامات على البيانات التي يتم الاستفادة منها بعد ذلك بواسطة علماء البيانات لإجراء التحليلات بينما يقوم قسم تكنولوجيا المعلومات بإدارة دورة حياة البيانات”. “هذا تعاون ثلاثي على نفس البيانات يتم تسهيله من خلال سير عمل البيانات الذكية الذي يستفيد من خطوط أنابيب البيانات.”
خطوط أنابيب البيانات للمستقبل
يقول راستوجي إن بنية خطوط أنابيب البيانات في المستقبل ستتميز بتركيز متزايد على معالجة التدفق ومنصات البيانات ذات زمن الوصول المنخفض للحصول على رؤى في الوقت الفعلي، والتي يتم تمكينها بواسطة أدوات مثل Kafka وFlink وKinesis.
ومع ذلك، لا يلزم معالجة جميع البيانات في الوقت الفعلي – حيث يمكن للمؤسسات اعتماد نهج مختلط لتحقيق التوازن بين الأداء والتكلفة.
ويتوقع أن تكتسب عمليات البيانات (DataOps) والأتمتة زخمًا حيث تطبق الشركات مبادئ هندسة البرمجيات على إدارة البيانات – وهو مبدأ لم يتم اتباعه من قبل. ويقول: “يجب على المؤسسات أيضًا أن تفكر في البنى السحابية الأصلية، وذلك باستخدام الخدمات بدون خادم وقواعد البيانات السحابية القابلة للتطوير للتعامل مع أحجام البيانات الكبيرة والمتسارعة ونطاقها”.
ويشير إلى هندسة البيانات المدعومة بالذكاء الاصطناعي، والتي تمكن محللي البيانات من تجميع وإنشاء خطوط أنابيب البيانات دون المعرفة والخبرة في كتابة التعليمات البرمجية، باعتبارها اتجاهًا مثيرًا آخر. يقول راستوجي: “ومع ذلك، ستكون جودة البيانات ودقة خطوط الأنابيب أمرًا بالغ الأهمية”. “البدء صغيرًا، والتعلم والتوسع تدريجيًا هو أفضل نهج.”
تقول سوبرامانيان إنها تعتقد أن أكبر تطور في خطوط أنابيب البيانات هو إعادة الهيكلة لمعالجة البيانات غير المنظمة والذكاء الاصطناعي. وتقول: “سنشهد تحولًا هائلاً في فهرسة البيانات، وإدارة البيانات، والمعالجة المسبقة للبيانات، وتقنيات سير عمل البيانات لتلبية هذه الحاجة الناشئة الهائلة”.