أخبار التقنية

أحدث تحسينات من طراز AI Demos AI


بعد شهرين فقط من انعقاد عالم التكنولوجيا من قبل نموذج Deepseek-R1 AI، قدمت Alibaba Cloud QWQ-32B ، نموذج لغة كبير مفتوح المصدر (LLM).

يصف العملاق السحابي الصيني النموذج الجديد بأنه “نموذج التفكير المدمج” الذي يستخدم 32 مليار فقط ، ولكنه قادر على تقديم الأداء مماثلة لنماذج AI ذات اللغة الكبيرة الأخرى التي تستخدم أعدادًا أكبر من المعلمات.

على موقعها على الإنترنت ، نشرت Alibaba Cloud معايير الأداء التي تشير إلى أن النموذج الجديد مماثل لنماذج الذكاء الاصطناعى من Deepseek و Openai. تشمل هذه المعايير AIME 24 (التفكير الرياضي) ، و Live CodeBench (كفاءة الترميز) ، و LiveBench (مجموعة الاختبار تلوث وتقييم موضوعي) ، و ifeval (القدرة على تتبع التعليمات) ، و BFCL (أدوات وقدرات الدعوى).

باستخدام مستمر التعلم المعزز (RL) التحجيم ، ادعى Alibaba أن نموذج QWQ-32B يوضح تحسينات كبيرة في التفكير الرياضي وكفاءة الترميز.

في منشور المدونة ، الشركة قال QWQ-32B ، الذي يستخدم 32 مليار معلمة ، يحقق الأداء المشابه لـ Deepseek-R1 ، والذي يستخدم 671 مليار معلمة. وقال علي بابا إن هذا يدل على فعالية RL عند تطبيقه على نماذج الأساس القوية التي تم تجهيزها على المعرفة العالمية الواسعة.

وقال ألبابا في منشور المدونة: “لقد قمنا بدمج القدرات المتعلقة بالعامل في نموذج التفكير ، مما يتيح لها التفكير بشكل نقدي أثناء استخدام الأدوات وتكييف تفكيرها بناءً على ردود الفعل البيئية”.

وقال Alibaba إن QWQ-32B يوضح فعالية استخدام التعلم التعزيز (RL) لتعزيز قدرات التفكير. من خلال هذا النهج في تدريب الذكاء الاصطناعى ، يمكن لوكيل التعلم المعزز لمنظمة العفو الدولية إدراك وتفسير بيئته ، وكذلك اتخاذ الإجراءات والتعلم من خلال التجربة والخطأ. التعلم التعزيز هو واحد من العديد من الأساليب التي يستخدمها المطورون لتدريب أنظمة التعلم الآلي. استخدمت Alibaba RL لجعل نموذجها أكثر كفاءة.

وقال بابا: “لم نشهد فقط الإمكانات الهائلة لـ RL المقلي ، ولكننا أدركنا أيضًا الاحتمالات غير المستغلة في نماذج اللغة المسبقة”. “بينما نعمل على تطوير الجيل القادم من QWEN ، نحن على ثقة من أن الجمع بين نماذج الأساس الأقوى مع RL التي تعمل بموارد حسابية مقاس سيؤدي إلى دفعنا إلى تحقيق أكثر من تحقيق الذكاء العام الاصطناعي [AGI]

وقالت Alibaba إنها تستكشف بنشاط دمج الوكلاء مع RL لتمكين ما يصفه بأنه “التفكير الأفق الطويل” والذي ، وفقًا لأبابا ، سيؤدي في النهاية إلى ذكاء أكبر مع تحجيم وقت الاستدلال.

تم تدريب نموذج QWQ-32B باستخدام المكافآت من نموذج المكافآت العامة والتحققات القائمة على القواعد ، مما يعزز قدراته العامة. وفقًا لألبابا ، تتضمن هذه التتبعات الأفضل للتعليمات ، والتوافق مع التفضيلات البشرية وتحسين أداء الوكيل.

يوضح Deepseek من الصين ، الذي كان متاحًا بشكل عام منذ بداية العام ، فعالية RL في قدرتها على تقديم نتائج قابلة للمقارنة مقارنة بنماذج اللغة الكبيرة الأمريكية المنافسة. يمكن لـ R1 LLM منافسة الذكاء الاصطناعي في الولايات المتحدة دون الحاجة إلى اللجوء إلى أحدث أجهزة GPU.

حقيقة أن نموذج QWQ-32B من Alibaba يستخدم أيضًا RL ليس صدفة. حظرت الولايات المتحدة تصدير رقائق تسريع AI المتطورة-مثل معالج رسومات NVIDIA H100-إلى الصين ، مما يعني أن مطوري الذكاء الاصطناعى الصينيين كان عليهم أن ينظروا إلى أساليب بديلة لجعل نماذجهم تعمل. يبدو أن استخدام RL يوفر نتائج قياسية مماثلة مقارنة بما يمكن أن يحققه نماذج مثل النماذج من Openai.

ما يثير الاهتمام في نموذج QWQ-32B هو أنه يستخدم معلمات أقل بكثير لتحقيق نتائج مماثلة لـ Deepseek ، مما يعني فعليًا أنه يجب أن يكون قادرًا على تشغيل أجهزة تسريع الذكاء الاصطناعى الأقل قوة.



Source link

زر الذهاب إلى الأعلى