نموذج اللغة العربية الكبير المطور أكبر بمرتين
أقل بقليل من ثلاثة أشهر منذ ذلك الحين الإصدار الأول من جايسانتهى الكونسورتيوم الذي أطلق ما يطلق عليه أقوى نموذج لغة كبير في العالم (LLM) للغة العربية من تدريب نسخة ثانية، والتي يبلغ حجمها أكثر من الضعف. اعتمد النموذج الأول على 13 مليار معلمة ويشار إليه الآن باسم Jais-13B؛ يستخدم النموذج الثاني 30 مليار معلمة ويسمى Jais-30B.
يتكون الكونسورتيوم من ثلاثة شركاء: Core42، وهي شركة تابعة لشركة G42 في الإمارات العربية المتحدة (الإمارات العربية المتحدة)؛ جامعة محمد بن زايد للذكاء الاصطناعي (MBZUAI)، وهي جامعة مقرها في دولة الإمارات العربية المتحدة تقدم شهادات عليا في الذكاء الاصطناعي (AI)؛ وCerebras، وهي شركة مقرها كاليفورنيا تصنع أجهزة كمبيوتر عملاقة مصممة خصيصًا لتسريع مرحلة التعلم لنماذج الذكاء الاصطناعي. أصدر الشركاء أحدث طراز، Jais-30B، في 8 نوفمبر 2023.
قال أندرو جاكسون، نائب الرئيس التنفيذي وكبير مسؤولي الذكاء الاصطناعي في Core42: “كان Jais-13B نموذجًا أوليًا سمح لنا بالحصول على تعليقات من المستخدمين”. “بعد إصداره، سمعنا من جميع أنواع المنظمات المختلفة التي تشكل دولة الإمارات العربية المتحدة، بما في ذلك وزارة الصحة، وشركات النفط والغاز، وشركة الطيران الوطنية، والبنوك، والوزارات الحكومية، وشركة الاتصالات الوطنية. لقد نظروا إلى التكنولوجيا وأخبرونا بالهدف الذي يريدون استخدامها من أجله.
قالت بعض المنظمات إنها تريد تشغيل نموذج اللغة محليًا، الأمر الذي سيتطلب قدرًا هائلاً من البنية التحتية، نظرًا لحجم المعالجة المطلوبة لتشغيل الاستدلال على ماجستير في اللغة الإنجليزية يضم 30 مليار معلمة.
أندرو جاكسون، Core42
لكن الشركاء وجدوا نهجًا آخر من شأنه أن يسمح لهم بإنجاز الشيء نفسه: يمكن لموردي تطبيقات المؤسسات دمج النموذج في برامجهم، باستخدام واجهات برمجة التطبيقات (APIs) للوصول إلى قوة النموذج الكبير.
قال جاكسون: “لقد ناقشنا هذا الأمر مع مايكروسوفت”. “نحن نعمل الآن معهم لاستخدام نموذجنا لهذه المنطقة، مع تحميل التكنولوجيا الخاصة بنا محليًا. نحن نعمل حاليًا على مجموعة كاملة من حالات الاستخدام – كل شيء بدءًا من الاستثمار في التمويل وحتى التحكم في المناخ. ونتوقع إبرام صفقات كبيرة على Jais [soon]”.
بالإضافة إلى ذلك، وقع الشركاء على مذكرتي تفاهم مع منظمات أخرى بشأن استخدام Jais. ويتوقعون قضاء الجزء الأول من عام 2024 في إنهاء الصفقات وضبط نماذجهم لاستخدام المؤسسات. نظرًا لأن النموذج أكبر بكثير، فيمكنه القيام بالعديد من الأشياء مع القليل من الضبط.
تحسينات على Jais-13B
أحد التحسينات الكبيرة التي أدخلها Jais-30B على Jais-13B هو تحسين بيانات التدريب. اكتشف الشركاء أن بعض البيانات التي كانوا يستخدمونها كانت ذات نوعية رديئة – على سبيل المثال، الكثير من النصوص باللغة العربية على الإنترنت هي نتيجة لترجمة سيئة من الإنجليزية. ووجدوا أيضًا أن هناك الكثير من البيانات الزائدة عن الحاجة، على سبيل المثال، نسخ متعددة من نفس المقالة على مواقع مختلفة. لقد تخلصوا من البيانات السيئة واستخدموا الأدوات لتصفية النص الزائد لمنع تمثيله الزائد في بيانات التدريب.
وأخيرًا، أدرك الشركاء أنهم بحاجة إلى العثور على المصادر الصحيحة للبيانات. تميل الكتب والمستندات إلى الحصول على معلومات أكثر موثوقية من منشورات المدونات. من ناحية أخرى، تتم كتابة بعض الكتب والمستندات بأسلوب رسمي لا يريدون أن يقلده نموذجهم في التفاعلات مع المستخدمين.
بذلت Core42 جهدًا كبيرًا في جمع بيانات جديدة – خاصة من المواد المطبوعة، والتي تم مسحها ضوئيًا وتشغيلها من خلال نظام التعرف البصري على الأحرف (OCR). تمت مساعدة فريق مكون من 10 أشخاص بواسطة أدوات التشغيل الآلي من Microsoft. قال جاكسون: “لقد استخدمنا الآن ما يقرب من 20 ألف كتاب ووثيقة”.
واعترف الشركاء أيضًا بوجود أوجه قصور في “المهام النهائية”، مثل التلخيص والترجمة. وقال جاكسون: “لقد أدركنا أن التلخيص لم يكن شيئًا قمنا بعمل رائع فيه في الجولة الأولى، لذلك بذلنا الكثير من الوقت والجهد لتحسين تلك الميزات في Jais-30B”. “لم تكن الترجمة رائعة أيضًا، لذلك ضاعفنا أيضًا الترجمة للنموذج الأكبر.”
تم تدريب Jais-30B في أقل من ثمانية أسابيع، وهو وقت قياسي، وفقًا للرئيس التنفيذي لشركة Cerebras أندرو فيلدمان. تم إجراء التدريب على Condor Galaxy (CG-1)، الذي يعتمد على 64 طائرة Cerebras CS-2 والمصممة خصيصًا لتنفيذ التعلم الآلي بسرعة كبيرة. تمكنت Cerebras وCore42 من إجراء تعديلات على نموذج اللغة للاستفادة من الأجهزة.
وقال فيلدمان: “ما فعلناه يمثل اتجاهاً قوياً للغاية”. “لقد تمكنت شركتانا من التعلم معًا بمعدل استثنائي وأكثر من ضعف حجم نموذجنا في ثمانية أسابيع. إذا كان بإمكانك زيادة دقة النموذج الخاص بك بأرقام مضاعفة كل ثمانية أسابيع، فأنت تقوم ببناء قدر هائل من قدرة الذكاء الاصطناعي.
كان Jais-13B صغيرًا جدًا بالنسبة لحوالي نصف حالات الاستخدام التي أراد الشركاء معالجتها، ولكن النموذج الجديد قوي بما يكفي لتوفير الاستجابات المتعمقة التي تحتاجها الشركات. “يمكننا الآن إجراء تلخيص أكثر دقة، وترجمة أكثر دقة، وإنشاء محتوى أكثر دقة بشكل عام. قال جاكسون: “إن التفاعلات بين الأسئلة والأجوبة أصبحت الآن أشبه بـ GPT-4”.
وأضاف: “كان Jais-13B بمثابة تجربة”. “لقد أثبتنا حالتنا، وحصلنا على ردود الفعل اللازمة لقيادة نموذج أكبر. هذا هو الإصدار الأول فقط من نموذجنا الذي يحتوي على 30 مليار معلمة. ربما يكون لدينا المزيد من الإصدارات في المستقبل.”
وقد أعرب الأشخاص الذين يعملون على نماذج للغات أخرى عن اهتمامهم بما يفعله الكونسورتيوم. قال جاكسون: “نحن نعرف كيفية إنشاء رموز مميزة للغات مختلفة”. “يمكننا مشاركة هذه المعرفة مع أي شخص آخر يريد القيام بذلك. وما قمنا به يمكن أن يحسن نوعية الحياة بشكل كبير في المناطق غير الناطقة باللغة الإنجليزية.