تقنية

ما هي معالجة الدفق؟ مقدمة ونظرة عامة


معالجة الدفق هي أ إدارة البيانات التقنية التي تنطوي على تناول مستمر دفق البيانات لتحليل البيانات أو تصفية أو تحويل أو تحسين البيانات في الوقت الفعلي. بمجرد معالجتها ، يتم نقل البيانات إلى تطبيق أو متجر بيانات أو محرك معالجة دفق آخر.

يمكن أن تشمل مصادر البيانات لمعالجة الدفق المعاملات ، وخلاصات الأسهم ، وتحليلات الموقع ، والأجهزة المتصلة ، وقواعد البيانات التشغيلية ، وتقارير الطقس وغيرها. دفق خدمات المعالجة والبنية تنمو في شعبية لأنها تسمح للمؤسسات بالجمع تغذية البيانات من مصادر مختلفة والحصول على رؤى مفيدة في الوقت الفعلي لاتخاذ القرارات الأفضل والأسرع.

كيف يعمل معالجة الدفق؟

تبدأ معالجة الدفق عن طريق تناول البيانات من مصادر ، مثل خدمات النشر والرسائل الاجتماعية ووسائل التواصل الاجتماعي و أجهزة استشعار، على سبيل المثال ، في محرك معالجة الدفق. ثم ، تتم معالجة البيانات في الوقت الحقيقي.

قد يؤدي المحرك إجراءً على البيانات ، مثل التحليل أو التصفية أو تحويله أو دمجه أو تنظيفه قبل نشر رؤى ونتائج إلى خدمة النشر أو متجر بيانات آخر. يمكن للمستخدمين بعد ذلك الاستعلام عن متجر البيانات للحصول على رؤى يمكن استخدامها لإبلاغ قراراتهم وإجراءات أخرى. يمكن أيضًا توفير النتائج على لوحات المعلومات أو أنظمة التنبيه لمزيد من التحليل أو الإجراءات.

تُعرف معالجة الدفق أيضًا باسم تحليلات البث أو التحليلات في الوقت الحقيقي – وهو مصطلح نسبي. قد يعني الوقت الحقيقي خمس دقائق لتطبيق تحليلات الطقس ، أو المليون من الثانية لتطبيق تداول خوارزمي أو مليار من الثانية للباحث فيزياء.

على الرغم من المعنى غير القياسي للوقت الفعلي في معالجة الدفق ، فإن الفكرة نفسها تشير إلى شيء مهم حول كيفية قيام محرك معالجة الدفق بحزم باقات من البيانات لتطبيقات مختلفة. ينظم المحرك أحداث البيانات التي تصل على دفعات قصيرة ويعالج البيانات بشكل مستمر بمجرد إنشائها. بعد ذلك ، يعرض نتائج المعالجة إلى التطبيقات الأخرى كتغذية مستمرة. هذا يبسط المنطق لدمج البيانات وإعادة تجميعها من مصادر مختلفة ومن المقاييس الزمنية المختلفة. كما أنه يجعل من الممكن اشتقاق رؤى فورية لاتخاذ القرارات السريعة ، حتى من أحجام بيانات كبيرة ، أو بيانات كبيرة.

رسم تخطيطي لكيفية عمل معالجة الدفق.
تسمح معالجة الدفق بإدارة دفق بيانات مستمر للاستخدام في الوقت الفعلي.

لماذا هناك حاجة إلى معالجة الدفق؟

هناك حاجة إلى معالجة الدفق في المواقف التي تتم معالجة كميات كبيرة من البيانات بسرعة لتسهيل الإجراءات والقرارات السريعة. لا يمكن لمعالجة الدُفعات التقليدية التي يتم تخزين البيانات فيها ثم معالجتها على دفعات منفصلة مواكبة البيانات التي تظهر عادةً كدفق مستمر للأحداث. بالنسبة للبيانات الضخمة ، فإن معالجة الدفق أكثر قابلية للتطبيق معالجة البيانات الاستراتيجية.

معالجة الدفق مناسبة في المواقف التالية:

  • يجب معالجة بيانات السلسلة الزمنية للكشف عن الأنماط خلال فترة زمنية.
  • إن الإجابات التقريبية ولكن السريعة هي الأفضل على رؤى أكثر دقة ولكن أبطأ.
  • يتم استخدام أجهزة أقل لمعالجة البيانات.
  • معالجة البيانات التي تصل دائمًا تقريبًا بتنسيق البث ، على سبيل المثال ، المعاملات المالية أو زيارات موقع الويب.

في خط أنابيب معالجة الدفق ، يتم إنشاء بيانات البث ومعالجتها وتسليمها إلى موقعها النهائي. بين التوليد والتسليم ، قد تكون البيانات أيضًا مجمعة، تحولت ، مخصبة ، تحليل وتلغي.

تتيح هذه العملية التطبيقات للرد على الأحداث الجديدة بمجرد حدوثها. هذا هو السبب في أن نهج معالجة الدفق مثالي للتطبيقات التي تستخدم مجموعة واسعة من مصادر البيانات و/أو تتطلب تحليل البيانات في الوقت الفعلي ، والرؤى الفورية والاستجابات السريعة.

دفق معالجة العمارة

تساعد بنيات معالجة الدفق في تبسيط مهام إدارة البيانات المطلوبة لاستهلاك ومعالجة ونشر البيانات بشكل آمن وبشكل موثوق. هناك العديد من البنى المتاحة وهي تتعامل مع البيانات في الوقت الفعلي ومعالجتها بطرق مختلفة.

تشمل بنيات معالجة الدفق الشائعة ما يلي:

العمارة لامدا

ال العمارة لامدا يجمع بين معالجة الدفق في الوقت الفعلي مع معالجة الدُفعات التقليدية. توفر معالجة الدفق في الوقت الفعلي وصولًا سريعًا للبيانات والرؤى الفورية ، في حين أن معالجة الدُفعات مناسبة لإجراء التحليل التاريخي. هذه الهندسة المعمارية مناسبة لمعالجة البيانات الكبيرة.

المكونات الرئيسية لهندسة Lambda هي مصادر البيانات وطبقة الدُفعات وطبقة التقديم وطبقة السرعة. تحتفظ طبقة الدُفعات بالبيانات الرئيسية بتنسيق ثابت وإلحاق فقط. يتم وضع البيانات التي تم الوصول إليها حديثًا للفهرسة وفهرسة طبقة التقديم أحدث طرق عرض الدُفعات. بعد ذلك ، تستخدم طبقة السرعة برنامج معالجة الدفق لفهرسة البيانات الواردة وجعلها متاحة للاستعلام من قبل المستخدمين النهائيين.

العمارة كابا

تشتمل بنية Kappa على محرك مراسلة ، ومحرك معالجة الدفق ، وقاعدة بيانات تحليلات. يخزن محرك المراسلة السلسلة الواردة من البيانات. مثال على مثل هذا المحرك أباتشي كافكا. بعد ذلك ، يقرأ محرك معالجة الدفق البيانات ، ويحولها إلى تنسيق قابل للتحليل ، ثم يقوم بتغذيته في قاعدة بيانات التحليلات. يمكن للمستخدمين الاستعلام عن قاعدة البيانات هذه لاسترداد المعلومات ذات الصلة.

بمجرد دخول البيانات إلى محرك المراسلة ، يتم قراءتها وتحويلها على الفور للتحليلات. هذا يسرع التحليلات واسترجاع البيانات للمستخدمين النهائيين. أيضًا ، يمكن لعمارة Kappa أداء كل من المعالجة في الوقت الفعلي والدفعة ، لذلك هناك حاجة فقط إلى مجموعة تقنية واحدة لكليهما. هذا هو السبب في الهندسة المعمارية Kappa أبسط من بنية Lambda. بالإضافة إلى تسهيل التحليلات في الوقت الفعلي ، تدعم هذه البنية أيضًا التحليلات التاريخية.

فوائد معالجة الدفق

أدوات معالجة الدفق الحديثة هي تطور لمختلف أطر عمل النشر التي تسهل معالجة البيانات أثناء العبور. توفر معالجة الدفق تحليلًا للبيانات السريعة وتولد رؤى في الوقت الفعلي (أو بالقرب من الوقت الفعلي) والتي تعتبر حاسمة للعديد من التطبيقات الحديثة. أيضًا ، من خلال توزيع المعالجة عبر البنية التحتية للحوسبة الحواف ، يمكن أن تقلل معالجة الدفق من تكاليف نقل البيانات وتخزينها.

جاري بنيات البيانات يمكن أن يسهل دمج البيانات من تطبيقات أعمال متعددة أو أنظمة تشغيلية من أجل توليد رؤى أفضل بشكل أسرع. معالجة البيانات الموازية كما يسارع ويعزز صنع القرار في صناعات وتطبيقات مختلفة.

على سبيل المثال ، يستخدم مقدمو خدمات الاتصالات أدوات معالجة الدفق لدمج البيانات من العديد أنظمة دعم العمليات. يستخدم مقدمو الرعاية الصحية ذلك لدمج التطبيقات التي تمتد على العديد من الأجهزة الطبية وأجهزة الاستشعار وأنظمة السجلات الطبية الإلكترونية.

https://www.youtube.com/watch؟v=9xbytmvkin8

كيف يتم استخدام معالجة الدفق؟

إن اكتشاف الشذوذ والكشف عن الاحتيال هما من أكثر حالات الاستخدام شيوعًا لمعالجة الدفق. في الإعدادات المالية على سبيل المثال ، يتم استخدام معالجة الدفق لتحليل أرقام بطاقات الائتمان للتعرف على التنبيهات ورفعها على الرسوم الاحتيالية. تدعم معالجة الدفق أيضًا تطبيقات أكثر استجابة لإنترنت الأشياء (إنترنت الأشياء) تحليلات البيانات ، تخصيص الإعلان في الوقت الفعلي ، الترقيات التسويقية على دراية بالسياق ، اكتشاف اتجاه السوق وتحليل الأسباب الجذرية.

شائع آخر استخدام حالات معالجة الدفق قم بتضمين ما يلي:

  • ضبط ميزات تطبيق الأعمال.
  • تخصيص تجربة العملاء.
  • تداول سوق الأسهم والمراقبة.
  • تحليل والاستجابة لأحداث البنية التحتية لتكنولوجيا المعلومات.
  • مراقبة الخبرة الرقمية.
  • خرائط رحلة العميل.
  • التحليلات التنبؤية والصيانة.
  • مراقبة الشبكة.
  • Geofencing.
  • مراقبة حركة المرور.
  • تحسين سلسلة التوريد.

بشكل عام ، يعد خط أنابيب معالجة الدفق والعملية الأنسب للقيام بما يلي:

  • تطوير تطبيقات تكيفية وسريعة الاستجابة.
  • توفير تحليلات الأعمال في الوقت الحقيقي.
  • تحسين وتسريع عملية صنع القرار مع زيادة السياق.
  • تحسين تجارب المستخدم.

ما هي أطر معالجة الدفق؟

كانت الأفكار الأساسية وراء معالجة الدفق موجودة منذ عقود ولكنها أصبحت أسهل في التنفيذ المصدر المفتوح الأدوات والخدمات السحابية والأطر.

تعد Spark Streaming و Flink و Kafka و Samza بعضًا من أطراف معالجة تيار المصادر الشهيرة من Apache.

أباتشي سبارك التدفق هو نظام معالجة الدفق والدُفعات. يمكنه معالجة البيانات في الوقت الفعلي من مصادر متعددة مثل Apache Kafka و Flume و Amazon Kinesis.

Kafka هو منصة تدفق الأحداث الموزعة التي تبسط تكامل البيانات عبر تطبيقات متعددة.

Flink هو محرك معالجة موزع وإطار لتيارات البيانات غير المحدودة والمحددة.

يمكن لـ Apache Samza معالجة كميات كبيرة من البيانات في الوقت الفعلي ، في الوقت الفعلي. إنه إطار معالجة الدفق الموزع يسمح للمستخدمين بالإنشاء التطبيقات الهادئة. يمكن لهذه التطبيقات معالجة البيانات في الوقت الفعلي من مصادر متعددة.

Apache Storm هو نظام حساب في الوقت الفعلي الموزع لمعالجة تدفقات البيانات غير المحدودة. إنه مناسب للعديد من حالات الاستخدام المعتمدة على البيانات ، بما في ذلك عبر الإنترنت التعلم الآلي والاستخراج ، التحويل ، الحمل (ETL) معالجة البيانات.

بالإضافة إلى ذلك ، لدى جميع مقدمي الخدمات السحابية الأولية خدمات أصلية تبسيط تطوير معالجة الدفق على منصاتهم الخاصة ، مثل Amazon Kinesis ، Azure Stream Analytics ، و Google Cloud Dataflow.

هؤلاء الأطر غالبًا ما تسير جنبًا إلى جنب مع أطر عمل النشر الأخرى المستخدمة لتوصيل التطبيقات ومتاجر البيانات.

دفق المعالجة مقابل معالجة الدُفعات

تمثل معالجة الدفق ومعالجة الدُفعات نماذج مختلفة لإدارة البيانات وتطوير التطبيقات.

نشأت معالجة الدُفعات في أيام قواعد البيانات القديمة ، حيث يقوم محترفي إدارة البيانات بجدولة مجموعات من التحديثات من قاعدة بيانات المعاملات إلى تقرير أو عملية تجارية. هذا النهج مناسب لمهام معالجة البيانات المجدولة بانتظام مع حدود محددة جيدًا. تتضمن الأمثلة ما يلي:

  • سحب أرقام المعاملات من قاعدة بيانات المبيعات.
  • توليد تقرير ربع سنوي.
  • ساعات الموظف العدد لحساب الرواتب الشهرية.

في المقابل ، تعتمد معالجة الدفق على تناول البيانات كدفق بيانات مستمر. على الرغم من أن البيانات لا تزال تصل على دفعات ، إلا أنها تتم معالجتها بشكل مستمر. لا توجد بيانات تخزين أو في انتظار مجموعة كبيرة بما يكفي من البيانات.

بدلاً من ذلك ، يقوم محرك معالجة الدفق بمعالجة البيانات الواردة بالتوازي. يقوم بتصفية تحديثات البيانات ويتتبع البيانات التي تم تحميلها بالفعل في الخلاصة. كما أنه يدير عمليات أخرى مثل تحويل البيانات، التخصيب والتنظيف. هذا يحرر المزيد من الوقت لفرق هندسة البيانات وفرق المطورين لترميز التحليلات ومنطق التطبيق.

تاريخ معالجة الدفق

منذ فجر أجهزة الكمبيوتر ، اكتشف علماء الكمبيوتر أطر عمل مختلفة ل معالجة البيانات وتحليلها من أجهزة استشعار متعددة. في الأيام الأولى ، كان هذا يسمى Sensor Fusion. ثم ، في أوائل التسعينيات ، صاغ أستاذ جامعة ستانفورد ديفيد لوكهام المصطلح معالجة الأحداث المعقدة ((CEP).

CEP هي وسيلة لتحليل وربط تدفقات البيانات لتحديد أنماط ذات معنى وتوليد رؤى في الوقت الفعلي حول الأحداث ذات الصلة. تضمنت المبادئ الأساسية لـ CEP تجريدات لتوصيف التوقيت المتزامن للأحداث ، وإدارة التسلسلات الهرمية للأحداث والنظر في الجوانب السببية للأحداث. ساعد ظهور نهج CEP في تأجيج تطوير البنى الموجهة للخدمة (خدم) وحافلات خدمة المؤسسة (ESBs).

أدى صعود الخدمات السحابية والبرامج المفتوحة المصدر إلى المزيد من الأساليب الفعالة من حيث التكلفة لإدارة تدفقات بيانات الأحداث ، باستخدام خدمات النشر المبنية على Apache Kafka. بمرور الوقت ، ظهرت العديد من أطر المعالجة التي تعمل على تبسيط تكلفة وتعقيد تدفقات البيانات المربوطة إلى أحداث معقدة. ظهرت أيضًا منهجيات معالجة الدفق المتعددة ، بما في ذلك معالجة دفق الأحداث (esp) ومعالجة دفق البيانات (DSP).

مع صعود السحابة ، الشروط الخدميةو ESB و CEP يقتربون من التقادم والبنية التحتية المبنية على الخدمات المجهرية، أصبحت خدمات النشر-subscribe ومعالجة الدفق أكثر شعبية.

تعرف على المزيد حول كيف يمكن أن توفر تحليلات التدفق البصيرة والقيمة لمؤسستك. استكشف أعلى تحديات إعداد البيانات وكيفية التغلب عليهم. الدفع أربعة أنواع من نماذج المحاكاة المستخدمة في تحليلات البيانات.



Source link

زر الذهاب إلى الأعلى