تقنية

RAG AI: “افعل ذلك بنفسك” ، كما يقول عالم البيانات في مدينة نيويورك


يجب على المنظمات بناء الذكاء الاصطناعي القائم على الذكاء (المستند إلى GENAI) على الجيل المعزز للاسترجاع (RAG) مع منتجات مصادر مفتوحة مثل Deepseek و Llama.

هذا حسب علاء موساوي، كبير علماء البيانات في مجلس مدينة نيويورك ، الذي تحدث مؤخرًا في الحدث التقني 2025 LEAP في المملكة العربية السعودية.

هذا الحدث ، الذي أقيم بالقرب من العاصمة السعودية رياده ، تخصص على الذكاء الاصطناعي وجاء كمملكة صحراء أعلنت 15 مليار دولار من الاستثمار المخطط في الذكاء الاصطناعي.

ولكن ، يقول موساوي ، لا يوجد شيء يوقف أي منظمة تختبر ونشر الذكاء الاصطناعي مع القليل من النفقات على الإطلاق ، حيث وصف أول مشروع للمجلس في عام 2018.

مجلس مدينة نيويورك هو الفرع التشريعي لحكومة مدينة نيويورك المسؤولة بشكل رئيسي عن تمرير القوانين والميزانية في المدينة. يضم المجلس 51 مسؤولًا منتخبًا بالإضافة إلى محامين ومحللي السياسات.

ما شرع فريق Moussawi في القيام به هو جعل العملية التشريعية أكثر قائمة على الحقائق والقائمة على الأدلة وجعل العمل اليومي للمحامين ومحللي السياسات والمسؤولين المنتخبين أكثر سلاسة.

أول تطبيق منظمة العفو الدولية تم تصميمه في عام 2018

تحقيقًا لهذه الغاية ، قام فريق Moussawi ببناء أول تطبيق يشبه الذكاء الاصطناعي-وهو مدقق مكرر للتشريع-لاستخدام الإنتاج في المجلس في عام 2018.

كلما كان لدى أحد أعضاء المجلس فكرة عن التشريع ، يتم وضعها في قاعدة البيانات والطابع الزمني بحيث يمكن التحقق منها للأصالة والقيام بالفائدة على المسؤول المنتخب الذي جعل هذا القانون يؤتي ثماره.

هناك عشرات الآلاف من الأفكار في النظام وخطوة أساسية في العملية التشريعية هي التحقق مما إذا كانت الفكرة قد تم اقتراحها من قبل.

يقول موساوي: “إذا كان الأمر كذلك ، فيجب أن تُنسب الفكرة إلى هذا المسؤول”. إنه شيء مثير للجدل للغاية. لقد حدثنا أخطاء في الماضي حيث وصل مشروع القانون إلى نقطة التصويت عليه ، وأخيراً استذكر عضو آخر في المجلس أنهم اقترحوا الفكرة ، لكن الشخص الذي قام بالتحقق المكرر يدويًا قد فاته بطريقة ما. “

وفقًا لمعايير اليوم ، إنه نموذج بدائي ، كما يقول موساوي. يستخدم Google’s Word2Vec، الذي تم إصداره في عام 2013 ويلتقط معلومات حول معنى الكلمات القائمة على من حولها.

يقول موساوي: “إنه بطيء إلى حد ما”. “لكن الشيء المهم هو أنه على الرغم من أن الأمر قد يستغرق بعض الوقت – خمس أو 10 ثوان لإعادة تصنيفات التشابه – فهو أسرع بكثير من الإنسان ويجعل وظائفهم أسهل بكثير.”

التضمين المتجه

التكنولوجيا الرئيسية وراء المدقق المكررة التضمين المتجه، وهي قائمة بالأرقام-المتجهات-التي تمثل موضع كلمة في مساحة متجه عالية الأبعاد.

يقول موساوي: “يمكن أن يتكون ذلك في كثير من الأحيان من أكثر من ألف بعد”. “التضمين المتجه هو في الحقيقة مجرد قائمة بالأرقام.”

أظهر موساوي الفكرة من خلال تبسيط الأمور وصولاً إلى متجهين. في لعبة البطاقات ، على سبيل المثال ، يمكنك أخذ المتجه لـ “Royalty” والمتجه لـ “Woman” ويجب أن يعطيك المتجه لـ “Queen” إذا قمت بإضافته معًا.

يقول موساوي: “يمكن أن تستمد تضمينات المتجهات القوية هذه العلاقات من البيانات”. “وبالمثل ، إذا أضفت المتجهات لـ” Royalty “و” Men “، فيمكنك توقع الحصول على المتجه لـ” King “.

هذه هي بشكل أساسي التكنولوجيا في مدقق المجلس المكررة. يدرب نفسه باستخدام مجموعة كاملة من النصوص لتوليد تضمينات المتجهات.

يقول: “ثم يلخص كل كلمة تضمينات لإنشاء ناقل فكرة”. “يمكننا قياس المسافة بين هذه الفكرة لقانون وفكرة أخرى للقانون. يمكنك قياسه مع حاكمك إذا كنت تعمل بمساحة ثنائية الأبعاد ، أو قمت بتطبيق نظرية فيثاغورات الممتدة إلى مساحة أعلى الأبعاد ، وهي واضحة إلى حد ما. وهذا كل ما في الأمر – مقياس المسافة بين فكرتين. “

Moussawi هو داعية قوي مفاده أن المنظمات يجب أن تتسخ أيديها مع الذكاء الاصطناعي التوليدي (Genai). إنه دكتوراه هندسة البرمجيات وطالب مقرب من التطورات – من خلال التكرارات المختلفة للشبكات العصبية – ولكنه حريص على التأكيد على قيودها.

يقول: “نماذج نص منظمة العفو الدولية ، بما في ذلك النماذج الحديثة التي نستخدمها اليوم ، تدور حول التنبؤ بكلمة أفضل في سلسلة من الكلمات وتكرار العملية”. “لذا ، على سبيل المثال ، إذا سألت نموذج لغة كبير [LLM]، “لماذا عبور الدجاج على الطريق؟” ، سوف يضخه في النموذج ويتنبأ بالكلمة التالية ، “، و” الدجاج “التالي ، وهكذا.

“هذا كل ما يفعله حقًا ، وهذا يجب أن يجعلك تفهم إلى حد ما سبب عدم ذكاء LLMS أو ليس لديهم فكر حقيقي بالطريقة التي نفعل بها.

“على النقيض من ذلك ، أشرح لك مفهومًا وأحاول نقل هذه الفكرة وأجد الكلمات للتعبير عن هذه الفكرة. ليس لدى نموذج اللغة الكبيرة أي فكرة عن الكلمة التي ستأتي بعد ذلك في التسلسل. لا يفكر في مفهوم. “

وفقًا لـ Moussawi ، فإن الاختراق الكبير في المجتمع العلمي الذي جاء في عام 2020 هو هذا الحساب ، ومجموعات البيانات والمعلمات يمكن أن تتوسع وتوسيع نطاقها ويمكنك الاستمرار في رمي المزيد من الطاقة فيهم والحصول على أداء أفضل.

ويؤكد أن المنظمات يجب أن تضع في اعتبارك أن العلم وراء الخوارزميات ليس معرفة سرية: “لدينا كل هذه النماذج المصدر المفتوح مثل Deepseek و Llama. لكن الوجبات السريعة المهم هي أن البنية الأساسية للتكنولوجيا لم تتغير كثيرًا ، فقد جعلناها أكثر كفاءة. لم تتعلم هذه LLMs التفكير بطريقة سحرية. فجأة ، جعلناها أكثر كفاءة “.

لماذا يجب عليك DIY AI

يقول موساوي إن مجلس مدينة نيويورك قد حظر استخدام LLMs لجهة خارجية في مكان العمل بسبب المخاوف الأمنية. هذا يعني أن المؤسسة اختارت نماذج مفتوحة المصدر التي تتجنب المخاوف المتعلقة بالأمان التي تأتي مع اشتراكات قائمة على السحابة أو واجهات برمجة التطبيقات الطرف الثالث.

“مع إصدار نماذج Llama الأولى ، بدأنا في العبث على المجموعة المحلية لدينا ، ويجب عليك أيضًا. هناك تطبيقات C ++ التي يمكن تشغيلها على الكمبيوتر المحمول. يمكنك القيام ببعض الاستدلال الجيد بشكل مدهش ، وهو أمر رائع لتطوير إثبات المفهوم ، وهو ما فعلناه في المجلس.

“أول ما يجب فعله هو فهرسة المستندات في بعض قاعدة بيانات المتجهات. هذا كله يعمل فقط مرة واحدة في النهاية الخلفية لإعداد نظامك ، بحيث يكون جاهزًا للاستعلام بناءً على قاعدة بيانات المتجهات التي قمت بإنشائها.

“بعد ذلك ، تحتاج إلى إعداد خط أنابيب لاسترداد المستندات ذات الصلة باستعلام معين. الفكرة هي أنك تسألها موجهًا وأن تقوم بتشغيل هذا المتجه ضد قاعدة بيانات المتجه الخاصة بك – المذكرات القانونية التي قمت بتخزينها في قاعدة بيانات المتجه أو ملخصات اللغة البسيطة أو المستندات القانونية الأخرى التي قمت بنسخها من أي مكان ، اعتمادًا على الخاص بك اِختِصاص.

“تُعرف هذه العملية باسم الجيل المعزز للاسترجاع أو الخرقة وهي طريقة رائعة لتزويد النموذج الخاص بك بنطاق فيما يتعلق بما يجب أن يقتصر عليه ناتجه. هذا يقلل بشكل كبير من الهلوسة – وبما أنه يسحب المستندات التي تستجيب لها من قاعدة بيانات المتجه ، يمكن أن يستشهد المصادر “.

هذه ، كما يقول موساوي ، توفير الدرابزين لنموذجك وإعطاء المستخدم النهائي وسيلة لضمان أن يكون الإخراج شرعيًا لأنه يتم ذكر المصادر.

وهذا بالضبط ما فعله فريق موساوي ، ورسالته – بينما ينتظر تسليم أول وحدات معالجة الرسومات لعلوم البيانات – هو: “ما الذي تنتظره؟”



Source link

زر الذهاب إلى الأعلى