يضيف AWS وظائف المتجه إلى تخزين كائن S3

أعلنت Amazon Web Services (AWS) عن تخزين المتجهات لتخزين كائنات سحابة S3 – ناقلات S3 – في خطوة تدعي أنها ستقلل من تكلفة التحميل والتخزين والاستعلام عن البيانات المتجهة في تخزين الذكاء الاصطناعي بنسبة تصل إلى 90 ٪.
الهدف هو السماح للعملاء بالفعالية من حيث التكلفة تخزين كميات كبيرة من المتجهات في سحابة AWS والبحث من خلال مثل هذه الفهارس للعثور على أنواع محتوى محددة. يحتمل أن يعرض بديلاً لقواعد بيانات المتجهات الأكثر تكلفة.
تسمح بيانات المتجه بما يسمى بالبحث الدلالي ، حيث تقوم وظائف البحث بالتعويض عن معلومات المتجه في البيانات الوصفية للسماح للمستخدمين بإيجاد أنواع مماثلة من المعلومات. قد تكون الأمثلة هي العثور على مشاهد مماثلة في ملف الفيديو ، أو تسجيل الأنماط في الصور الطبية ، أو مجموعات من المستندات ذات الموضوعات ذات الصلة.
تقدم ناقلات S3 نوعًا من دلو AWS مصمم خصيصًا في S3 تخزين الكائن وسيوفر واجهات برمجة التطبيقات (APIs) للسماح باتصال التطبيق بمثل هذه البيانات.
يمكن لكل دلو ناقلات Amazon S3 دعم ما يصل إلى 10000 فهرسة متجه ، وكل فهرس قادر على تخزين عشرات الملايين من المتجهات.
بعد إنشاء فهرس متجه ، يمكن للعملاء أيضًا إرفاق البيانات الوصفية كأزواج القيمة الرئيسية إلى المتجهات لتصفية الاستعلامات المستقبلية بناءً على مجموعة من الشروط. يقول AWS إن ناقلات S3 ستعمل تلقائيًا على تحسين بيانات المتجهات مع مرور الوقت لتحقيق أفضل الأداء المحتمل للسعر.
تتكامل ناقلات S3 مع قواعد المعرفة من Amazon Bedrock ويمكن استخدامها مع Amazon OpenSearch.
Bedrock هي خدمة AWS المدارة التي تتيح للعملاء بناء تطبيقات AI (GENAI) ، في حين أن OpenSearch هي أداة مستودع وتصور لكميات كبيرة من البيانات والمساعدة في إنشاء الجيل المعزز للاسترجاع (خرقة) التطبيقات.
يمكن أن تلغي ناقلات S3 الحاجة إلى توفير البنية التحتية لقاعدة بيانات المتجهات ، وفقًا لـ AWS. هذا بسبب S3 وتخزين الكائن المستند إلى مجموعة النظراء هي أرخص لبناء وتشغيل من قواعد بيانات المتجهات.
تم تصميم تخزين الكائنات للتعامل مع كميات كبيرة من البيانات غير المهيكلة باستخدام بنية مسطحة مع الحد الأدنى من النفقات العامة ويتيح استرداد ملفات فعالة للملفات الفردية. وفي الوقت نفسه ، تم تصميم قواعد بيانات المتجهات للبحث عن التشابه عالي الأداء عبر بيانات معقدة وعالية الأبعاد. غالبًا ما يعتمدون على أساليب الفهرسة المتخصصة وتسارع الأجهزة ، والتي يمكن أن تزيد من تكاليف الأجهزة وتشغيلها.
بيانات المتجه هي نوع من البيانات ذات الأبعاد عالية ، يسمى لأن عدد الميزات أو القيم في نقطة بيانات البيانات يتجاوز بكثير عدد العينات أو نقاط البيانات التي تم جمعها.
في الذكاء الاصطناعي ، يتم استخدام المتجهات لتخزين البيانات وإجراء الحسابات عليها.
على سبيل المثال ، تتم معالجة طلب Genai باللغة الطبيعية لمعنى الكلمة ، والسياق ، وما إلى ذلك ، ثم تم تمثيله بتنسيق متجه متعدد الأبعاد ، والتي يمكن تنفيذ العمليات الرياضية عليها. وهذا ما يسمى التضمين المتجه.
للحصول على إجابات على الاستعلام ، يمكن مقارنة النتيجة العددية للحلية والمعالجة بالبيانات التي تم سدها بالفعل وإجابة مقدمة.
هذا يعني أن البيانات يمكن أن تمثل الخصائص التي يمكن العثور عليها في ما يسمى بالبيانات غير المنظمة-الأشكال والألوان وما قد تمثله عند تفسيره ككل ، على سبيل المثال.
حتى الآن ، يبدو أن AWS هو الأول من مقدمي الخدمات السحابية الفائقة لتقديم وظائف المتجه إلى عرض تخزين الكائنات الأساسي.
يوفر Microsoft Azure تخزين المتجه والبحث عبر Azure Cosmos DB ، قاعدة بيانات متجه. البحث المتجه ممكن في Azure باستخدام Azure AI Search.
وفي الوقت نفسه ، توفر منصة Google Cloud بحثًا عن الموجه عبر Vertex AI لبيانات المتجه المخزنة ، على سبيل المثال ، قواعد بيانات GCP BigQuery أو Cloud SQL أو AlloyDB.




