تقول شركة Cisco إن حاملي شهادات الماجستير المشهورين معرضون بشكل خطير للهجمات المتكررة

بعض من الوزن المفتوح الأكثر استخدامًا في العالم الذكاء الاصطناعي التوليدي خدمات (GenAI) معرضة بشدة لما يسمى بـ “المنعطفات المتعددة” الحقن الفوري أو الهجمات السيبرانية لكسر الحماية، حيث يتمكن ممثل خبيث من إقناع نماذج لغوية كبيرة (LLMs) لتوليد استجابات غير مقصودة وغير مرغوب فيها، وفقًا لـ ورقة بحثية تم نشره بواسطة فريق في شركة الشبكات العملاقة Cisco.
اختبر باحثو سيسكو Alibaba Qwen3-32B، وMistral Large-2، وMeta Llama 3.3-70B-Instruct، وDeepSeek v3.1، وZhipu AI GLM-4.5-Air، وGoogle Gemma-3-1B-1T، وMicrosoft Phi-4، وOpenAI GPT-OSS-2-B، حيث قاموا بتصميم سيناريوهات متعددة حيث لا يسمح بإخراج النماذج المختلفة للمحتوى، مع معدلات نجاح تتراوح من 25.86% مقابل نموذج جوجل، وتصل إلى 92.78% في حالة ميسترال.
وقال مؤلفو التقرير، إيمي تشانغ ونيكولاس كونلي، إلى جانب المساهمين هاريش سانتانالاكشمي غانيسان وآدم سواندا، إن هذا يمثل زيادة بمقدار ضعفين إلى عشرة أضعاف عن خطوط الأساس ذات المنعطف الواحد.
وقالوا: “تؤكد هذه النتائج عدم القدرة المنهجية لنماذج الوزن المفتوح الحالية على الحفاظ على حواجز السلامة عبر التفاعلات الممتدة”.
“نحن نقيّم أن استراتيجيات المحاذاة وأولويات المختبر تؤثر بشكل كبير على المرونة: تُظهر النماذج التي تركز على القدرات مثل Llama 3.3 وQwen 3 قابلية أعلى للتحولات المتعددة، في حين تُظهر التصميمات الموجهة نحو السلامة مثل Google Gemma 3 أداءً أكثر توازناً.
“يخلص التحليل إلى أن النماذج ذات الوزن المفتوح، رغم أهميتها للابتكار، تشكل مخاطر تشغيلية وأخلاقية ملموسة عند نشرها دون ضوابط أمنية متعددة الطبقات… تعد معالجة نقاط الضعف متعددة المنعطفات أمرًا ضروريًا لضمان النشر الآمن والموثوق والمسؤول لـ LLM ذات الوزن المفتوح في المؤسسات والمجالات العامة.”
ما هو الهجوم متعدد المنعطفات؟
تأخذ الهجمات متعددة المنعطفات شكل “اختبار” متكرر لـ LLM لكشف نقاط الضعف النظامية التي عادة ما تكون مخفية لأن النماذج يمكنها اكتشاف طلبات الخصومة المعزولة ورفضها بشكل أفضل.
يمكن أن يبدأ مثل هذا الهجوم بقيام المهاجم باستفسارات حميدة لبناء الثقة، قبل تقديم المزيد من الطلبات العدائية بمهارة لتحقيق أهدافه الفعلية.
قد يتم صياغة المطالبات بمصطلحات مثل “لأغراض بحثية” أو “في سيناريو خيالي”، وقد يطلب المهاجمون من النماذج المشاركة في لعب الأدوار أو تبني الشخصية، أو تقديم غموض سياقي أو توجيه خاطئ، أو تحليل المعلومات وإعادة تجميعها – من بين تكتيكات أخرى.
مسؤولية من؟
قال الباحثون إن عملهم أكد على قابلية حاملي شهادة الماجستير في الهجمات العدائية، وأن هذا كان مصدرًا للقلق بشكل خاص نظرًا لأن جميع النماذج التي تم اختبارها كانت ذات وزن مفتوح، وهو ما يعني في مصطلحات الشخص العادي أن أي شخص يهتم بالقيام بذلك قادر على تنزيل النموذج وتشغيله وحتى إجراء تغييرات عليه.
لقد سلطوا الضوء على ثلاثة نماذج أكثر عرضة للخطر – ميسترال ولاما وكوين – والتي قالوا إنه من المحتمل أن يتم شحنها مع توقع أن المطورين سيضيفون حواجز الحماية بأنفسهم، مقارنة بنموذج جوجل، الذي كان الأكثر مقاومة للتلاعب متعدد المنعطفات، أو نموذج OpenAI’s وZhipu’s، اللذان رفضا محاولات المنعطفات المتعددة أكثر من 50٪ من الوقت، كمجال مثير للقلق بشكل خاص.
وكتبوا: “يجب على مطوري الذكاء الاصطناعي ومجتمع الأمن الاستمرار في إدارة هذه التهديدات بفعالية – بالإضافة إلى المخاوف الإضافية المتعلقة بالسلامة والأمن – من خلال الاختبار المستقل وتطوير الدرابزين طوال دورة حياة تطوير النموذج ونشره في المؤسسات”.
وأضافوا: “بدون حلول أمان الذكاء الاصطناعي – مثل الاختبار متعدد المنعطفات، والتخفيف من التهديدات المحددة والمراقبة المستمرة – تشكل هذه النماذج مخاطر كبيرة في الإنتاج، مما قد يؤدي إلى اختراق البيانات أو التلاعب الخبيث”.




