تقنيات كسر الحماية من الذكاء الاصطناعى تثبت فعالة للغاية ضد ديبسيك

يتم طرح أسئلة جديدة على سلامة وأمن ديبسيك، منصة انهيار الذكاء الاصطناعي الصيني (AI) ، بعد الباحثين في شبكات بالو ألتو كشفت أن المنصة معرضة للغاية لما يسمى بتقنيات كسر الحماية المستخدمة من قبل الجهات الفاعلة الضارة لخداع القواعد التي من المفترض أن تمنع نماذج اللغة الكبيرة (LLMs) من استخدامها لأغراض شائنة ، مثل كتابة رمز البرامج الضارة.
أدت الزيادة المفاجئة في الاهتمام في Deepseek في نهاية شهر يناير إلى مقارنات مع اللحظة في أكتوبر 1957 عندما أطلق الاتحاد السوفيتي أول قمر صناعي مصطنع ، سبوتنيك، أخذت الولايات المتحدة وحلفائها على حين غرة وترسب سباق الفضاء في الستينيات من القرن الماضي بلغت في Apollo 11 Moon Landing. كما تسبب في الفوضى في صناعة التكنولوجيا ، مما يمنح مليارات الدولارات من قيمة الشركات مثل NVIDIA.
الآن ، أثبتت الفرق الفنية لـ Palo Alto أن ثلاث تقنيات تم وصفها مؤخرًا فعالة ضد نماذج Deepseek. وقال الفريق إنه حقق معدلات تجاوز كبيرة مع القليل من المعرفة أو الخبرة المتخصصة المطلوبة.
وجدت تجاربهم أن أساليب كسر الحماية الثلاثة التي تم اختبارها أسفرت عن إرشادات صريحة من Deepseek على مجموعة من الموضوعات التي تهم الأخوة الإجرامية الإلكترونية ، بما في ذلك ترشيح البيانات وخلق Keylogger. تمكنوا أيضًا من إنشاء تعليمات حول إنشاء أجهزة متفجرة مرتجلة (IEDS).
“في حين أن المعلومات المتعلقة بإنشاء كوكتيلات Molotov و Keyloggers متاحة بسهولة عبر الإنترنت ، فإن LLMs مع قيود السلامة غير الكافية يمكن أن تقلل من حاجز الدخول للجهات الفاعلة الضارة عن طريق تجميع وتقديم مخرجات قابلة للاستخدام بسهولة وقابلة للتنفيذ. وقال الفريق: “يمكن أن تسرع هذه المساعدة إلى حد كبير عملياتهم”.
ما هو كسر الحماية؟
تتضمن تقنيات كسر الحماية الصياغة الدقيقة لمطالبات محددة ، أو استغلال نقاط الضعف ، لتجاوز الحرس على متن LLMS ، واستنباط الناتج المتحيز أو الضار الذي يجب أن يتجنبه النموذج. يمكّن القيام بذلك الجهات الفاعلة الضارة من “سلاح” LLMs لنشر المعلومات الخاطئة ، أو تسهيل النشاط الإجرامي ، أو توليد مواد مسيئة.
لسوء الحظ ، تصبح LLMs الأكثر تطوراً في فهمها واستجاباتها على المطالبات الدقيقة ، وكلما أصبحت أكثر عرضة للإدخال العدواني الصحيحة. هذا يؤدي الآن إلى شيء من سباق التسلح.
اختبر بالو ألتو ثلاث أساليب لكسر السجون – قاضي ليكرت السيئ ، والبهجة الخادعة والتجهيز – على ديبسيك.
يحاول قاضي Likert Likert السيئ التلاعب بـ LLM من خلال الحصول عليه لتقييم ضرر الاستجابات باستخدام مقياس Likert ، والذي يتم استخدامه في استطلاعات رضا المستهلك ، من بين أشياء أخرى ، لقياس الاتفاق أو الخلاف تجاه بيان مقابل مقياس ، وعادة ما يكون أحدهم إلى واحد إلى خمسة ، حيث يساوي المرء يوافق بشدة وخمس يساوي لا يوافق بشدة.
Crescendo هو استغلال متعدد المنعطفات يستفيد من معرفة LLM حول موضوع من خلال المطالبة به تدريجياً بمحتوى ذي صلة لتوجيه المناقشة بمهارة نحو المواضيع المحظورة حتى يتم تجاوز آليات السلامة للنموذج بشكل أساسي. مع الأسئلة والمهارات الصحيحة ، يمكن للمهاجم تحقيق تصعيد كامل خلال خمسة تفاعلات فقط ، مما يجعل Crescendo فعالًا للغاية ، والأسوأ من ذلك ، يصعب اكتشافه مع التدابير المضادة.
البهجة الخادعة هي تقنية أخرى متعددة المنعطفات التي تتجاوز الدرابزين عن طريق تضمين مواضيع غير آمنة بين تلك الحميدة داخل سرد إيجابي شامل. كمثال أساسي للغاية ، يمكن لممثل التهديد أن يطلب من الذكاء الاصطناعى إنشاء قصة تربط ثلاثة مواضيع – أرانب الأرنب ، وبرامج الفدية ، والغيوم الرقيقة – وطلبها من توضيح كل منها لإنشاء محتوى غير آمن عند مناقشة الأجزاء الأكثر حميدة من القصة . يمكنهم بعد ذلك المطالبة بالتركيز مرة أخرى على الموضوع غير الآمن لتضخيم الناتج الخطير.
كيف يجب أن تستجيب CISO؟
اعترف بالو ألتو بأنه يمثل تحديًا ضمان LLMs محددة-وليس فقط Deepseek-غير محظوظ تمامًا لمؤسسات المستخدمين النهائيين ، يمكن أن تنفذ تدابير لمنحهم درجة من الحماية ، مثل المراقبة متى وكيف يستخدم الموظفون LLM الطرف الثالث.
وقال نائب الرئيس الأول لأمن الشبكة ، أناند أوسوال: “سيكون لكل مؤسسة سياساتها حول نماذج منظمة العفو الدولية الجديدة”. “البعض سيحظرهم تماما. سوف يسمح آخرون بالاستخدام المحدود والتجريبي والمسفوقة بشكل كبير. لا يزال البعض الآخر يسارع إلى نشره في الإنتاج ، ويتطلعون إلى التخلص من هذا الأداء بشكل إضافي وتحسين التكلفة.
وقال أوسوال: “لكن ما وراء حاجة مؤسستك إلى اتخاذ قرار بشأن نموذج جديد محدد ، يقدم Deepseek’s Rise العديد من الدروس حول أمان الذكاء الاصطناعي في عام 2025”. في منشور مدونة.
“لا يمكن مقارنة وتيرة التغير من الذكاء الاصطناعي ، والشعور المحيط بالإلحاح ، بالتقنيات الأخرى. كيف يمكنك التخطيط للمستقبل عندما يصبح النموذج الغامض إلى حد ما-وأكثر من 500 مشتق متوفرة بالفعل على وجه المعانقة-الأولوية الأولى التي يبدو أنها خارج عن العدم؟ الجواب القصير: لا يمكنك ذلك “.
قال أوسوال إن أمان الذكاء الاصطناعى ظل “هدفًا متحركًا” وأن هذا لا يبدو أنه من المقرر أن يتغير لفترة من الوقت. علاوة على ذلك ، أضاف أنه من غير المرجح أن يكون Deepseek هو آخر نموذج يمسك الجميع ، لذلك يجب أن يتوقع CISO وقادة الأمن ما هو غير متوقع.
إضافة إلى التحدي الذي تواجهه المنظمات ، من السهل جدًا على فرق التطوير ، أو حتى المطورين الفرديين ، تبديل LLMS بتكلفة صغيرة أو حتى لا تكلفة إذا وصلت واحدة أكثر إثارة للاهتمام إلى مكان الحادث.
“إن إغراء بناة المنتجات لاختبار النموذج الجديد لمعرفة ما إذا كان بإمكانه حل مشكلة التكلفة أو عنق الزجاجة أو التفوق على مهمة معينة. وقال أوسوال: “إذا تبين أن النموذج هو القطعة المفقودة التي تساعد على تقديم منتج يحتمل أن يغير اللعبة إلى السوق ، فأنت لا تريد أن تكون الشخص الذي يقف في الطريق”.
يشجع Palo Alto قادة الأمن على إنشاء حوكمة واضحة على LLMs والدعوة إلى دمج مبادئ آمنة من حيث التصميم في الاستخدام التنظيمي لهم. قام بطرح مجموعة من الأدوات ، تأمين الذكاء الاصطناعي حسب التصميم، في العام الماضي ، لهذا الغرض.
من بين أمور أخرى ، توفر هذه الأدوات فرق أمنية مع الرؤية في الوقت الفعلي لما يتم استخدام LLMs ومن خلال من بواسطة من ؛ القدرة على منع التطبيقات غير المعروضة وتطبيق سياسات وحماية الأمن التنظيمي ؛ ومنع البيانات الحساسة من الوصول إليها من قبل LLMs.




