أخبار التقنية

معهد سلامة الذكاء الاصطناعي في المملكة المتحدة يفتتح فرعًا في سان فرانسيسكو


أعلن معهد سلامة الذكاء الاصطناعي (AISI) التابع لحكومة المملكة المتحدة أنه سينشئ مكاتب في سان فرانسيسكو، حيث ينشر علنًا نتائج اختبار سلامة نموذج الذكاء الاصطناعي (AI) لأول مرة.

تم إنشاء AISI في الفترة التي سبقت انعقاد قمة المملكة المتحدة لسلامة الذكاء الاصطناعي في نوفمبر 2023 المكلف بالفحص، تقييم واختبار أنواع جديدة من الذكاء الاصطناعي، وهو تتعاون بالفعل مع نظيرتها الأمريكية لمشاركة القدرات وبناء أساليب مشتركة لاختبار سلامة الذكاء الاصطناعي.

بناءً على هذا التعاون، ستفتح AISI مكاتب في سان فرانسيسكو خلال فصل الصيف لتعزيز علاقتها مع معهد السلامة الخاص بالولايات المتحدة، بالإضافة إلى تحقيق المزيد من التقدم مع شركات الذكاء الاصطناعي الرائدة التي يقع مقرها الرئيسي هناك، مثل انثروفي و أوبن إيه آي.

مع وجود ما يزيد قليلاً عن 30 موظفًا في لندن، فإن التوسع في الولايات المتحدة سيمنح AISI أيضًا وصولاً أكبر إلى المواهب التقنية من منطقة الخليج، مع خطط لتوظيف فريق من الموظفين الفنيين ومدير الأبحاث أولاً.

ومع ذلك، لا توجد حاليًا معلومات إضافية حول الأدوار المحددة التي سيتطلع المعهد إلى توظيفها أو عددها.

وقالت ميشيل دونيلان، السكرتيرة الرقمية: “يمثل هذا التوسع الريادة البريطانية في مجال الذكاء الاصطناعي على أرض الواقع”. “إنها لحظة محورية في قدرة المملكة المتحدة على دراسة مخاطر وإمكانات الذكاء الاصطناعي من منظور عالمي، وتعزيز شراكتنا مع الولايات المتحدة وتمهيد الطريق أمام البلدان الأخرى للاستفادة من خبراتنا بينما نواصل قيادة العالم في المستقبل.” سلامة الذكاء الاصطناعي.

“إن فتح أبوابنا في الخارج والبناء على تحالفنا مع الولايات المتحدة أمر أساسي في خطتي لوضع معايير دولية جديدة بشأن سلامة الذكاء الاصطناعي، والتي سنناقشها في قمة سيول هذا الأسبوع.”

نتائج اختبار السلامة

يأتي هذا التوسيع في أعقاب قيام AISI بإصدار مجموعة مختارة من النتائج علنًا من اختبار السلامة الأخير لخمسة نماذج لغوية كبيرة متقدمة متاحة للجمهور (LLMs).

وقد تم تقييم النماذج في ضوء أربعة مجالات خطر رئيسية ــ بما في ذلك الأمن السيبراني، والبيولوجيا والكيمياء، والاستقلالية، والضمانات ــ مع التركيز بشكل خاص على مدى فعالية الضمانات التي قام المطورون بتثبيتها في الممارسة العملية.

وقد وجدت AISI أن أياً من النماذج لم يكن قادراً على القيام بمهام أكثر تعقيداً وتستغرق وقتاً طويلاً دون إشراف البشر عليها، وأن جميعها تظل معرضة بشدة لعمليات “كسر الحماية” الأساسية لضماناتها. ووجدت أيضًا أن بعض النماذج ستنتج مخرجات ضارة حتى بدون محاولات مخصصة للتحايل على هذه الضمانات.

ومع ذلك، تدعي AISI أن النماذج كانت قادرة على إكمال تحديات الأمن السيبراني الأساسية والمتوسطة، وأن العديد منها أظهر مستوى معادلًا لدرجة الدكتوراه من المعرفة في الكيمياء والبيولوجيا (مما يعني أنه يمكن استخدامها للحصول على المعرفة على مستوى الخبراء وردودهم على العلوم). كانت الأسئلة القائمة على قدم المساواة مع تلك التي قدمها الخبراء على مستوى الدكتوراه).

خضعت النماذج أيضًا لتقييمات “الوكيل” لاختبار مدى قدرتها على أداء المهام بشكل مستقل مثل تنفيذ التعليمات البرمجية أو التنقل في مواقع الويب. ووجدت أنه على الرغم من أن النماذج غالبًا ما ترتكب أخطاء صغيرة (مثل الأخطاء النحوية في التعليمات البرمجية) أثناء المهام قصيرة المدى، إلا أنها لم تكن قادرة على إكمال المهام طويلة المدى بشكل كافٍ والتي تتطلب مستوى أعمق من التخطيط للتنفيذ.

وذلك لأنه على الرغم من وضع خطط أولية جيدة، إلا أن النماذج لم تتمكن من تصحيح أخطائها الأولية؛ فشل في اختبار الحلول المبتكرة بشكل كاف؛ وغالبًا ما “يهلوس” بإكمال المهام الفرعية.

هجمات سريعة

في حين أن مطوري LLMs سيقومون بضبطها لتكون آمنة للاستخدام العام (بمعنى أنهم مدربون على تجنب المخرجات غير القانونية أو السامة أو الصريحة)، فقد وجدت AISI أنه يمكن التغلب على هذه الضمانات في كثير من الأحيان من خلال هجمات سريعة بسيطة نسبيًا.

وقال إيان هوغارث، رئيس AISI: “تمثل نتائج هذه الاختبارات المرة الأولى التي تمكنا فيها من مشاركة بعض تفاصيل عملنا التقييمي النموذجي مع الجمهور”. “ستساعد تقييماتنا في المساهمة في التقييم التجريبي لقدرات النموذج والافتقار إلى القوة عندما يتعلق الأمر بالضمانات الحالية.

وقال: “لا تزال سلامة الذكاء الاصطناعي مجالًا شابًا وناشئًا للغاية”. “لا تمثل هذه النتائج سوى جزء صغير من نهج التقييم الذي تطوره AISI. طموحنا هو مواصلة دفع حدود هذا المجال من خلال تطوير أحدث التقييمات، مع التركيز على المخاطر المتعلقة بالأمن القومي.

ومع ذلك، فقد رفض AISI الإعلان علنًا عن النماذج التي اختبرها من الشركات، ومن الواضح أن النتائج توفر فقط لمحة سريعة عن قدرات النموذج، ولا تحدد الأنظمة على أنها “آمنة” أو “غير آمنة” بأي صفة رسمية.

يأتي إصدار النتائج بعد إنشاء AISI لمنصة تقييمات Inspect الخاصة بها متاح للعامة في أوائل مايو 2024. ويهدف إلى تسهيل الأمر على مجموعة واسعة من المجموعات لتطوير تقييمات الذكاء الاصطناعي وتعزيز النظام البيئي للاختبار.

حدود اختبار AISI

في مشاركة مدونة نُشر في 17 مايو 2024، شكك معهد Ada Lovelace (ALI) في الفعالية الشاملة لـ AISI و النهج السائد لتقييم النماذج في مجال سلامة الذكاء الاصطناعي. كما شكك أيضًا في إطار الاختبار الطوعي الذي يعني أن AISI لا يمكنه الوصول إلى النماذج إلا بموافقة الشركات.

وقالت إنه على الرغم من أن التقييمات لها بعض القيمة لاستكشاف قدرات النماذج، إلا أنها ليست كافية لتحديد ما إذا كانت نماذج الذكاء الاصطناعي والمنتجات أو التطبيقات المبنية عليها آمنة للناس والمجتمع في ظروف العالم الحقيقي.

ويرجع ذلك إلى القيود الفنية والعملية لأساليب مثل الفريق الأحمر وقياس الأداء، والتي يسهل التعامل معها أو التلاعب بها إما من خلال تدريب النماذج باستخدام مجموعة بيانات التقييم أو الاستخدام الاستراتيجي للتقييمات المستخدمة في التقييم؛ والطبيعة التكرارية للذكاء الاصطناعي، مما يعني أن التغييرات الصغيرة في النماذج يمكن أن تسبب تغييرات غير متوقعة في سلوكها أو تتجاوز ميزات الأمان الموجودة.

وأضاف ALI أن سلامة نظام الذكاء الاصطناعي ليست أيضًا خاصية متأصلة يمكن تقييمها في الفراغ، وأن هذا يتطلب اختبار النماذج وتقييمها بناءً على تأثيراتها في سياقات أو بيئات محددة. وقالت: “هناك اختبارات قيمة يجب إجراؤها في بيئة معملية، وهناك تدخلات مهمة تتعلق بالسلامة يجب إجراؤها على مستوى النموذج، لكنها لا تقدم القصة الكاملة”.

وأضافت أن كل هذه المشكلات تتفاقم بسبب الإطار الطوعي لـ AISI، الذي قالت إنه يحظر الوصول الفعال إلى النماذج (كما هو موضح في التقارير الأخيرة في بوليتيكو التي كشفت أن ثلاثة من مطوري نماذج الأساس الأربعة الرئيسيين فشلوا في توفير الوصول المتفق عليه قبل الإصدار إلى AISI لأحدث نماذجهم المتطورة).

وجاء في التقرير أن “حدود النظام التطوعي تمتد إلى ما هو أبعد من الوصول وتؤثر أيضًا على تصميم التقييمات”. “وفقًا للعديد من المقيمين الذين تحدثنا إليهم، فإن ممارسات التقييم الحالية أكثر ملاءمة لمصالح الشركات من الجمهور أو الهيئات التنظيمية. داخل شركات التكنولوجيا الكبرى، تدفعها الحوافز التجارية إلى إعطاء الأولوية لتقييم الأداء وقضايا السلامة التي تشكل مخاطر على السمعة (بدلاً من قضايا السلامة التي قد يكون لها تأثير مجتمعي أكثر أهمية).

وأضاف ALI أن AISI عاجز أيضًا عن منع إطلاق النماذج الضارة أو غير الآمنة، وغير قادر تمامًا على فرض شروط على الإصدار، مثل إجراء المزيد من الاختبارات أو تدابير السلامة المحددة.

وقالت: “باختصار، لا يكون نظام الاختبار ذا معنى إلا مع صلاحيات الموافقة قبل السوق التي يدعمها القانون”.

ومع ذلك، وفقًا لمدونة خاصة بها، قالت AISI إنها “تدرك تمامًا” الفجوة المحتملة بين كيفية أداء أنظمة الذكاء الاصطناعي المتقدمة في تقييماتها، مقابل كيفية أدائها في الواقع.

وقالت: “قد يتفاعل المستخدمون مع النماذج بطرق لم نتوقعها، مما يبرز الأضرار التي لا تستطيع تقييماتنا رصدها”. “علاوة على ذلك، فإن التقييمات النموذجية ليست سوى جزء من الصورة. نعتقد أنه من المهم أيضًا دراسة التأثير المباشر الذي قد تحدثه أنظمة الذكاء الاصطناعي المتقدمة على المستخدم. لدينا أبحاث جارية لفهم هذه القضايا ومعالجتها.

“إن عملنا لا يوفر أي ضمان بأن النموذج “آمن” أو “غير آمن”. ومع ذلك، نأمل أن يساهم ذلك في تكوين صورة ناشئة لقدرات النموذج وقوة الضمانات الحالية.



Source link

زر الذهاب إلى الأعلى