تقنية

شرح تقنية التخزين: قواعد البيانات المتجهة في صميم الذكاء الاصطناعي


تعتمد معالجة الذكاء الاصطناعي على استخدام البيانات الموجهة. بعبارة أخرى، يحول الذكاء الاصطناعي المعلومات الواقعية إلى بيانات يمكن استخدامها لاكتساب المعرفة والبحث عنها والتلاعب بها.

تعتبر قواعد بيانات المتجهات هي جوهر هذا الأمر، لأن هذه هي الطريقة البيانات التي تم إنشاؤها بواسطة نمذجة الذكاء الاصطناعي يتم تخزينها ومن أين يمكن الوصول إليها أثناء استدلال الذكاء الاصطناعي.

في هذه المقالة، ننظر إلى قواعد بيانات المتجهات وكيفية استخدام بيانات المتجهات في الذكاء الاصطناعي والتعلم الآلي. ندرس البيانات عالية الأبعاد، وتضمين المتجهات، وتحديات تخزين بيانات المتجهات والموردين الذين يقدمون منتجات قواعد البيانات المتجهة.

ما هي البيانات عالية الأبعاد؟

البيانات المتجهة هي نوع فرعي من ما يسمى بالبيانات عالية الأبعاد. هذه هي البيانات – لتبسيط الأمر بشكل كبير – حيث يتجاوز عدد الميزات أو القيم في نقطة بيانات ما العينات أو نقاط البيانات التي تم جمعها.

كانت البيانات ذات الأبعاد المنخفضة ــ أي التي لا تحتوي على العديد من القيم لكل نقطة بيانات ــ أكثر شيوعاً تاريخياً. أما البيانات ذات الأبعاد العالية فتنشأ عندما تصبح القدرة على التقاط كميات كبيرة من المعلومات ممكنة. وتوفر الذكاء الاصطناعي المعاصر الذي يعالج الكلام أو الصور باستخدام العديد من السمات والسياقات المحتملة، وما إلى ذلك، مثالاً جيداً.

ما هي المتجهات؟

المتجهات هي أحد أنواع البيانات التي تتم الإشارة إلى الكميات فيها من خلال ترتيبات مفردة أو أكثر تعقيدًا من الأرقام.

لذا، في الرياضيات، العدد القياسي هو رقم مفرد، مثل 5 أو 0.5، في حين أن المتجه هو مجموعة أحادية البعد من الأرقام، مثل [0.5, 5]. ثم تقوم المصفوفة بتوسيع هذا إلى بعدين، مثل:

[[0.5, 5],

[5, 0.5],

[0.5, 5]].

أخيرًا، تعمل الموترات على توسيع هذا المفهوم إلى ثلاثة أبعاد أو أكثر. يمكن للموتر ثلاثي الأبعاد تمثيل الألوان في صورة (بناءً على قيم الأحمر والأخضر والأزرق)، بينما يمكن للموتر رباعي الأبعاد إضافة بُعد الوقت من خلال ربط أو تكديس الموترات ثلاثية الأبعاد في حالة استخدام الفيديو.

تضيف المصفوفات أبعادًا إضافية وهي عبارة عن مصفوفات متعددة الأبعاد من الأرقام التي يمكنها تمثيل بيانات معقدة. ولهذا السبب فقد تم استخدامها في أطر الذكاء الاصطناعي والتعلم الآلي والتعلم العميق مثل TensorFlow وPyTorch.

ما هو تضمين المتجه؟

في الذكاء الاصطناعي، تُستخدم الموترات لتخزين البيانات ومعالجتها. توفر الأطر القائمة على الموترات أدوات لإنشاء الموترات وإجراء العمليات الحسابية عليها.

على سبيل المثال، يتم تحليل طلب ChatGPT في اللغة الطبيعية ومعالجته لمعرفة معنى الكلمة والسياق الدلالي وما إلى ذلك، ثم يتم تمثيله بتنسيق موتر متعدد الأبعاد. بعبارة أخرى، يتم تحويل الموضوع في العالم الحقيقي إلى شيء يمكن إجراء العمليات الحسابية عليه. وهذا ما يسمى بالتضمين المتجهي.

للحصول على إجابات على الاستعلام، يمكن مقارنة النتيجة الرقمية (وإن كانت معقدة) للتحليل والمعالجة بالتمثيلات القائمة على الموتر للبيانات الموجودة – أي البيانات المضمنة في المتجهات بالفعل – وتقديم إجابة. يمكنك نقل هذا المفهوم الأساسي – الاستيعاب والتمثيل؛ والمقارنة والاستجابة – إلى أي حالة استخدام للذكاء الاصطناعي، مثل الصور أو سلوك المشتري.

ما هي قاعدة البيانات المتجهة؟

تخزن قواعد بيانات المتجهات بيانات متجهية عالية الأبعاد. يتم تخزين نقاط البيانات في مجموعات على أساس التشابه.

قواعد بيانات المتجهات توفر السرعة والأداء اللازمين لحالات استخدام الذكاء الاصطناعي التوليدي. وذكرت شركة جارتنر أنه بحلول عام 2026، ستتبنى أكثر من 30% من الشركات قواعد بيانات متجهة لبناء نماذج أساسية ببيانات الأعمال ذات الصلة.

في حين أن قواعد البيانات العلائقية التقليدية مبنية على صفوف وأعمدة، فإن نقاط البيانات في قاعدة البيانات المتجهة تأخذ شكل متجهات في عدد من الأبعاد. قواعد البيانات التقليدية هي المظهر الكلاسيكي للبيانات المنظمة. يمثل كل عمود متغيرًا مع كل صف قيمة لهذا المتغير.

وفي الوقت نفسه، تستطيع قواعد بيانات المتجهات التعامل مع القيم الموجودة على طول العديد من المتصلات التي يتم تمثيلها عبر المتجهات. لذا، فهي لا تضطر إلى الالتزام بمتغيرات محددة مسبقًا، بل يمكنها تمثيل نوع الخصائص التي قد نجدها في ما نعتبره بيانات غير منظمة – ظلال الألوان، وتخطيط وحدات البكسل في الصورة وما قد تمثله عند تفسيرها ككل، على سبيل المثال.

ليس من المستحيل تحويل مصادر البيانات غير المنظمة إلى قاعدة بيانات علائقية تقليدية لإعدادها للذكاء الاصطناعي، ولكنها ليست مسألة تافهة.

يظهر الاختلاف واضحًا في البحث في قواعد البيانات التقليدية وقواعد البيانات المتجهة. ففي قاعدة بيانات SQL، تبحث عن قيم صريحة ومحددة، مثل الكلمات الأساسية أو القيم الرقمية، وتعتمد على المطابقات الدقيقة لاسترداد النتائج التي تريدها.

يمثل البحث المتجهي البيانات بطريقة أقل دقة. قد لا يكون هناك تطابق دقيق، ولكن إذا تم تصميمه بشكل فعال، فسوف يعيد نتائج تتعلق بالشيء الذي يتم البحث عنه وقد ينتج عن أنماط وعلاقات مخفية لا تستطيع قاعدة البيانات التقليدية استنتاجها.

ما هي تحديات التخزين لقواعد البيانات المتجهة؟

يتضمن نمذجة الذكاء الاصطناعي الكتابة تضمينات المتجهات في قاعدة بيانات متجهية لكميات كبيرة جدًا من البيانات غير الرياضية غالبًا، مثل الكلمات أو الأصوات أو الصور. ثم يقارن الاستدلال بالذكاء الاصطناعي البيانات المضمنة في المتجهات باستخدام النموذج والاستعلامات المقدمة حديثًا.

يتم تنفيذ ذلك بواسطة معالجات عالية الأداء للغاية، وخاصةً بواسطة وحدات المعالجة الرسومية (GPUs) التي تقوم بنقل كميات كبيرة جدًا من المعالجة من وحدات المعالجة المركزية الخاصة بالخادم.

يمكن أن تخضع قواعد البيانات المتجهة لمتطلبات إدخال وإخراج قصوى – خاصة أثناء النمذجة – وستحتاج إلى القدرة على التوسع بشكل كبير وتوفير إمكانية نقل البيانات بين المواقع لتمكين المعالجة الأكثر كفاءة.

يمكن فهرسة قواعد بيانات المتجهات لتسريع عمليات البحث، كما يمكنها قياس المسافة بين المتجهات لتوفير نتائج تعتمد على التشابه.

وهذا يسهل المهام مثل أنظمة التوصية، والبحث الدلالي، والتعرف على الصور، ومهام معالجة اللغة الطبيعية.

من يزود قواعد البيانات المتجهة؟

تتضمن منتجات قواعد البيانات المملوكة والمفتوحة المصدر تلك من DataStax وElastic وMilvus وPinecone وSinglestore وWeaviate.

هناك أيضًا ملحقات لقاعدة بيانات المتجهات والبحث في قواعد البيانات لقواعد البيانات الموجودة، مثل pgvector مفتوح المصدر الخاص بـ PostgreSQL، وتوفير البحث عن المتجهات في Apache Cassandra، وإمكانية قاعدة بيانات المتجهات في Redis.

هناك أيضًا منصات ذات قدرات قاعدة بيانات متجهية متكاملة، مثل IBM watsonx.data.

وفي الوقت نفسه، مزودي الخدمات السحابية الضخمة – أمازون ويب سيرفيسزتوفر Google Cloud وMicrosoft Azure قاعدة بيانات المتجهات والبحث في عروضهما الخاصة وكذلك من أطراف ثالثة عبر أسواقهما.



Source link

زر الذهاب إلى الأعلى