المقابلة التنفيذية: النماذج المفتوحة إيجابيات وسلبيات
فتح الذراع البحثي لشركة Meta عددًا من مشاريع الذكاء الاصطناعي الداخلي (AI) أمام مجتمع البحث الأوسع في محاولة لمساعدته على تحسين نماذج الذكاء الاصطناعي الخاصة به.
Fundamental AI Research (Fair) هي مجموعة أبحاث العلوم المفتوحة في شركة التواصل الاجتماعي. وتضم ما بين 500 إلى 600 شخص في جميع أنحاء أوروبا وأمريكا الشمالية، وتركز على حل المشكلات الأساسية في الذكاء الاصطناعي.
أصدر Fair مؤخرًا العديد من المصنوعات البحثية الجديدة التي يأمل أن تمكن مجتمع البحث من ابتكار واستكشاف واكتشاف طرق جديدة لتطبيق الذكاء الاصطناعي على نطاق واسع.
وتشمل هذه الحلول Chameleon، التي توفر بنية موحدة لإدخال وإخراج النصوص والصور؛ التنبؤ متعدد الرموز لنماذج اللغة التدريبية للتنبؤ بكلمات مستقبلية متعددة في وقت واحد؛ وAudioSeal، وهي تقنية لوضع العلامات المائية الصوتية.
وبالنظر إلى دور Fair في أعمال عملاق وسائل التواصل الاجتماعي، تقول جويل بينو، نائب رئيس شركة Meta لأبحاث الذكاء الاصطناعي: “لسنا بالضرورة الفريق الذي يجلب هذه الابتكارات إلى المنتج. نحن نركز بشكل مباشر على حل الذكاء الاصطناعي.
يشارك Fair الأبحاث علنًا جنبًا إلى جنب مع قواعد الأكواد ومجموعات البيانات والنماذج ووصفات التدريب وأدلة السلامة. وبينما تركز المجموعة على الابتكار الأساسي، تتم مشاركة البحث داخليًا مع فريق البحث التطبيقي في Meta والذي تقول إنه يأخذ النموذج ويكتشف كيفية الانتقال من مفهوم مثل مفهوم Chameleon الجديد ويعمل مع فرق منتجات Meta لتحويله إلى مفهوم جديد. منتج.
يقول بينو: “على مر السنين، تحول عدد من ابتكاراتنا إلى منتجات”. “إذا كنت قد شاهدت نظارات Meta – النظارات الذكية – فإن نموذج الذكاء الاصطناعي الذي يتم تشغيله قد خرج من بحثنا. خرج نموذج اللاما الأول من مختبر الأبحاث الخاص بنا. ولكن كما تركز اللاما 2 و3 على المنتج، تم تطويرها بواسطة الذكاء الاصطناعي التوليدي لـ Meta [GenAI] الفريق، وهو أكثر من فريق بحث تطبيقي.
موديلات مفتوحة جديدة
يستخدم Meta Chameleon الترميز للنصوص والصور. ووفقًا للشركة، فإن هذا يتيح اتباع نهج أكثر توحيدًا، ويجعل النموذج أسهل في التصميم والصيانة والقياس. تتضمن مجالات التطبيق إنشاء تسميات توضيحية إبداعية للصور أو استخدام مزيج من المطالبات النصية والصور لإنشاء مشهد جديد تمامًا.
في حالة Chameleon، يقول بينو إن النموذج يستخدم النص والصور للتفكير في خصائص معينة. وتقول: “لقد قمنا بتدريب Chameleon على ما يصل إلى 30 مليار معلمة، وهو أصغر بكثير من نماذج مثل Llama وGPT وما إلى ذلك، على سبيل المثال”. “لكن لدينا إثباتًا للمفهوم يصل إلى حجم معين.
يقول بينو: “تتمتع فرق البحث التطبيقي بالقدرة إما على توسيع نطاقها بشكل أكبر، أو جعلها تعمل مع أنواع مختلفة من البيانات، وفي ظل قيود مختلفة”.
أما الجزء الثاني من البحث الذي نشرته Meta الآن للعامة فهو نهج جديد للترميز. معظم نماذج اللغات الكبيرة الحديثة (LLMs) لها هدف تدريبي بسيط: التنبؤ بالكلمة التالية. في حين أن هذا النهج بسيط وقابل للتطوير، إلا أن ميتا تقول أنه غير فعال أيضًا. فهو يتطلب عدة مرات من حيث الحجم نصًا أكبر مما يحتاجه الأطفال لتعلم نفس الدرجة من الطلاقة اللغوية.
يقول بينو التنبؤ متعدد الرموز كان مستوحى مباشرة من العمل على توليد التعليمات البرمجية. وتقول: “هناك فرصة لتوليد العديد من الرموز في نهاية المطاف بطريقة منظمة، وليس فقط بطريقة خطية”.
“في حين أن ماجستير إدارة الأعمال الكلاسيكي يقوم فقط بإنشاء كلمة واحدة تلو الأخرى، وخطية المنتج لرموز الإخراج، بالنسبة للتعليمات البرمجية، لا يكتب العديد من الأشخاص رمزًا مميزًا واحدًا في كل مرة. تكتب بنية التعليمات البرمجية، ثم تكتب بعض الهياكل الفرعية، ثم تقوم بحل التفاصيل من حيث الهياكل، وتنتقل ذهابًا وإيابًا على مستويات مختلفة من التجريد أثناء بناء التعليمات البرمجية.
وتضيف أن هذا أكثر تعقيدًا بكثير من النهج الخطي المستخدم في ماجستير إدارة الأعمال.
مناقشة مغلقة مقابل مناقشة مفتوحة
عندما سُئل عما إذا كان هناك مكان لنماذج الذكاء الاصطناعي المغلقة، يعتقد بينو أنه يجب أن يكون نموذج الذكاء الاصطناعي مفتوحًا عندما تكون هناك ضمانات لضمان عدم تسببه في مخاطر لا داعي لها.
وتقول: “في حالة نموذج Chameleon الخاص بنا، اخترنا بعد إجراء تحليل المخاطر عدم إطلاق إمكانات توليد الصور”. “النموذج قادر على توليد الصور، لكننا شعرنا أن إجراءات السلامة ليست ناضجة بما فيه الكفاية.”
هناك نموذج آخر طورته شركة Fair، والذي تم نشره ولكن لم يتم إصداره، وهو نموذج للتوليف الصوتي. “في غضون ثوانٍ قليلة من التسجيل الصوتي من فرد ما، يمكننا بشكل أساسي توليد خطاب يقلد صوت شخص ما يقول بينو: “إلى درجة أنها مضللة”.
وفي هذه الحالة، تقول إنه لا توجد أدوات مصادقة يمكنها التمييز بين الصوت الناتج عن الذكاء الاصطناعي والتسجيل الصوتي الحقيقي. ومع ذلك، كانت ميتا تبحث في المصادقة، وتقول إن تقنية العلامة المائية الخاصة بـ AudioSeal تمت مشاركتها مع مجموعة صغيرة من الباحثين الأكاديميين لفحص النموذج بواسطة طرف ثالث. في حين أن تقنيات العلامات المائية الصوتية ليست ناضجة تمامًا بما يكفي لمنح باحثي Meta الثقة بأن لديهم أمانًا كافيًا لإتاحة نموذج التوليف الصوتي الخاص بها للجمهور، فقد تم تصميم AudioSeal خصيصًا للكشف المحلي عن الكلام الناتج عن الذكاء الاصطناعي.
لذا، هل يجب أن تمنحهم الفرصة؟ في حين أن نماذج الذكاء الاصطناعي الجديدة التي أصدرتها Meta مفتوحة، يقول بينو إن هناك منحنى تعليمي معقول لمعرفة كيفية تشغيلها – ولكن الأشخاص الذين يستخدمون النماذج بشكل روتيني، مثل تلك المتاحة عبر Hugging Face، يجب أن يكونوا في وضع يسمح لهم النهوض والتشغيل بسهولة نسبيًا.
“لدينا أشخاص يأخذون نموذجًا مثل اللاما ويقومون بضبطه، وفي غضون 48 ساعة تتوفر نسخة معدلة بدقة تظهر على بعض [AI model] “المتصدرين” ، كما تقول. “يعتمد الأمر حقًا على مستوى كفاءتك.”
البدء لا يتطلب أجهزة متطورة. وتقول إنه في بعض الحالات، يتم توفير النماذج بأحجام مختلفة: يمكن تشغيل النماذج الأصغر حجمًا على وحدة معالجة رسومات واحدة ويكون البدء بها أسهل. يقول بينو: “تتطلب النماذج الأكبر معرفة أكبر بالأنظمة الموزعة للحصول على المستوى المطلوب من الأداء”.