Deepseek-R1 يولد بسهولة محتوى خطير من نماذج اللغة الكبيرة الأخرى
ديبسيك ، النمو السريع الذكاء الاصطناعي التوليدي (Genai) نموذج صنع الأمواج في جميع أنحاء العالم في نهاية يناير – وبحسب ما ورد تم القضاء على أكثر من تريليون دولار من أسواق الأسهم – هو أكثر عرضة لتوليدها متحيزة، المحتوى الضار والسام من منافسيها ، وفقًا للأدلة الأولية التي تم جمعها للدراسة.
وسط فيلق خبراء الأمن التكنولوجي والأمن السيبراني الذين أمضوا الأيام الماضية في وضع صعود Deepseek السريع إلى الصدارة والآثار المترتبة عليها هم خبراء في منصة أمان وامتثال الذكاء الاصطناعي في بوسطن enkrypt aiالذين لديهم الآن تم نشر النتائج المبكرة حول كيفية اكتشاف فريقهم الأحمر مجموعة من حالات الفشل الأمنية الحرجة في النموذج.
وصف Enkrypt النموذج بأنه متحيز للغاية وعمق لتوليد رمز غير آمن فقط ، ولكن أيضًا محتوى مثل المواد الجنائية وكلام الكراهية والتهديدات ومواد إيذاء الذات والمحتوى الجنسي الصريح.
كما أظهر آخرون هذا الأسبوع ، فإنه أيضًا معرض للغاية للتلاعب ، والمعروف أيضًا باسم كسر الحماية ، والذي يمكن أن يمكّنه من المساعدة في إنشاء أسلحة كيميائية وبيولوجية وسيبر. وقال Enkrypt إنها طرحت “مخاوف أمنية عالمية كبيرة”.
بالمقارنة مع النماذج الأخرى ، ادعى الباحثون في الشركة أن نموذج Deepseek-R1 أكثر تحيزًا بثلاث مرات من Claude-3 Opus ، وأربع مرات أكثر عرضة لتوليد رمز غير آمن من Openai O1 ، وأربع مرات أكثر سمية من GPT-4O لتوليد ناتج ضار مقارنة مع Openai O1 ، وأرجح ثلاث مرات ونصف لإنتاج محتوى كيميائي وبيولوجي وإشعاعي ونووي (CBRN) من Openai O1 أو Claude-3 Opus.
وقال الرئيس التنفيذي لشركة Enkrypt Sahil Agarwal: “تقدم Deepseek-R1 مزايا كبيرة في التكلفة في نشر الذكاء الاصطناعي ، لكن هذه المخاطر الخطرة”.
“تكشف نتائج البحوث التي توصلنا إليها عن فجوات رئيسية للأمن والسلامة التي لا يمكن تجاهلها. في حين أن Deepseek-R1 قد تكون قابلة للحياة للتطبيقات التي تم تحديدها بشكل ضيق ، إلا أن الضمانات القوية-بما في ذلك الدرابزين والمراقبة المستمرة-ضرورية لمنع سوء الاستخدام الضار. يجب أن تتطور سلامة الذكاء الاصطناعي إلى جانب الابتكار ، وليس كطريقة لاحقة. “
أثناء الاختبار ، وجد باحثو Enkrypt أن 83 ٪ من اختبارات التحيز قد أنتجت بنجاح الناتج التمييزي ، والذي كان شديدًا بشكل خاص في مجالات مثل الجنس والصحة والعرق والدين ، وربما يعرض Deepseek لخطر انتهاك القوانين واللوائح العالمية ، وتشكيل مخاطر كبيرة على المنظمات التي قد تميل إلى دمج الأداة في مجالات مثل الخدمات المالية أو توفير الرعاية الصحية أو الموارد البشرية.
بشكل عام ، احتوت 6.68 ٪ من جميع الاستجابات على درجة ما من الألفاظ النابية أو خطاب الكراهية أو الروايات المتطرفة ، على النقيض من كلود 3 ، والتي منعت بشكل فعال كل المطالبات السامة نفسها.
بالإضافة إلى ذلك ، تم اختبار 45 ٪ من المحتوى الضار الذي تم اختباره نجحًا في تجاوز بروتوكولات السلامة ، مما يولد أدلة التخطيط الجنائي ومعلومات الأسلحة غير القانونية والدعاية المتطرفة. في أحد الاختبارات ، تمكن Enkrypt من استخدام Deepseek-R1 لكتابة مدونة توظيف “مقنعة” لمجموعة إرهابية غير محددة. هذا يتسلم مع اختبارات أخرى يقوم به خبراء في شبكات بالو ألتو، الذين استخدموا سلسلة من مطالبات كسر الحماية لإنشاء تعليمات حول صنع جهاز متفجر بدائي (IEC) – في تلك الحالة ، كوكتيل Molotov.
أنشأ Deepseek-R1 أيضًا بيانات مفصلة عن التفاعلات الكيميائية الحيوية لـ خردل الكبريت – أكثر شيوعًا باسم غاز الخردل – مع الحمض النووي ، والذي ، على الرغم من دراسته ومعروفه لسنوات ، يجعله تهديدًا محتملًا للأمن الحيوي.
بالانتقال إلى مخاطر الأمن السيبراني على وجه التحديد ، نجحت 78 ٪ من الاختبارات التي أجرتها Enkrypt في خداع Deepseek-R1 بنجاح إلى رمز توليد يحتوي على نقاط الضعف أو كانت ضارة بصراحة-بما في ذلك الكود الذي يمكن أن يساعد في إنشاء برامج ضارة وأروح طروادة وغيرها من عمليات الاستغلال. وقال Enkrypt إن نموذج اللغة الكبير من المرجح أن يكون قادرًا على توليد أدوات اختراق وظيفية ، وهو ما حذره أخصائيو الأمن منذ فترة طويلة.
بالتفكير في نتائج الفريق ، قال أغاروال إنه من الطبيعي أن تستمر كل من الصين والولايات المتحدة في دفع حدود الذكاء الاصطناعي للسلطة الاقتصادية والعسكرية والتكنولوجية.
“ومع ذلك ، تكشف النتائج التي توصلنا إليها أن نقاط الضعف الأمنية لـ Deepseek-R1 يمكن أن تتحول إلى أداة خطيرة-تلك التي يمكن أن يستغلها مجرمو الإنترنت وشبكات المعلومات المضللة ، وحتى أولئك الذين لديهم طموحات الحرب الكيميائية الحيوية ،”. “هذه المخاطر تتطلب اهتمامًا فوريًا.”