أخبار التقنية

هل يمكن أن يفهم LLMs العلماء؟ | الكمبيوتر أسبوعي


استخدام نماذج لغة كبيرة (LLMS) كبديل لمحركات البحث وخوارزميات التوصية تتزايد ، لكن الأبحاث المبكرة تشير إلى أنه لا يزال هناك درجة عالية من عدم الاتساق والتحيز في النتائج التي تنتجها هذه النماذج. هذا له عواقب وخيمة في العالم ، حيث تلعب LLMs دورًا أكبر في خيارات اتخاذ القرارات.

فهم التوصيات الخوارزمية أمر صعب. في الماضي ، كان لدينا صناعات كاملة مكرسة لفهم (والألعاب) نتائج محركات البحث – لكن مستوى تعقيد ما يدور في توصياتنا عبر الإنترنت قد ارتفع عدة مرات في غضون سنوات فقط. قام التنوع الهائل في حالات الاستخدام لـ LLMS بإجراء عمليات تدقيق للتطبيقات الفردية الحيوية في معالجة التحيز وعدم الدقة.

يتدافع العلماء والحكومات والمجتمع المدني لفهم ما تبصقه هذه النماذج. تبحث مجموعة من الباحثين في مركز علوم التعقيد في فيينا في مجال واحد على وجه الخصوص حيث يتم استخدام هذه النماذج: تحديد الخبراء العلميين. على وجه التحديد ، كان هؤلاء الباحثون مهتمين بالعلماء أوصت به هذه النماذج – والتي لم تكن كذلك.

كان Lisette Espín-Noboa ، عالم الكمبيوتر الذي يعمل في المشروع ، يبحث في هذا قبل أن تصل Major LLMs إلى السوق: “في عام 2021 ، كنت أقوم بتنظيم ورشة عمل ، وأردت أن أتوصل إلى قائمة من المتحدثين الرئيسيين”. أولاً ، ذهبت إلى الباحث العلمي من Google ، وهي قاعدة بيانات مفتوحة الوصول للعلماء ومنشوراتهم. “[Google Scholar] تصنيفها بالاستشهادات – ولكن لعدة أسباب ، فإن الاستشهادات منحازة “.

هذا يعني الصباريات من خلال صفحات وصفحات العلماء الذكور. بعض مجالات العلوم هي ببساطة أكثر شعبية من غيرها ، حيث كان للباحثين أكثر تأثيرًا بحتًا بسبب حجم انضباطهم. هناك قضية أخرى وهي أن العلماء الأكبر سناً – وأجزاء من الأبحاث الأكبر سناً – سيكون لديهم بشكل طبيعي المزيد من الاستشهادات لمجرد أن يكونوا موجودين لفترة أطول ، بدلاً من حداثة النتائج التي توصلوا إليها.

“غالبًا ما يكون متحيزًا تجاه الرجال” ، كما يشير إسبن-نوبوا. حتى مع دخول المزيد من النساء إلى هذه المهنة ، فإن معظم التخصصات العلمية كانت تهيمن على الذكور لعقود.

يصف دانييلي بارولو ، باحث آخر في مركز علوم التعقيد ، هذا كمثال على تأثير ماثيو. ويوضح قائلاً: “إذا قمت بفرز المؤلفين فقط عن طريق تعداد الاقتباس ، فمن الأرجح أن يتم قراءتها وبالتالي يتم الاستشهاد بها ، وهذا سيخلق حلقة تعزيز”. وبعبارة أخرى ، يصبح الأثرياء أكثر ثراء.

يستمر Espín-Noboa: ثم فكرت ، لماذا لا أستخدم LLMS؟ ” يمكن أن تملأ هذه الأدوات أيضًا الفجوات من خلال تضمين العلماء الذينT على الباحث العلمي من Google.

لكن أولاً ، سيتعين عليهم فهم ما إذا كانت هذه تحسنا. بدأنا في إجراء عمليات التدقيق هذه لأننا أردنا أن نعرف مقدار ما يعرفونه عن الناس ، [and] يقول إسبن-نوبوا: “إذا كانوا متحيزين تجاه الرجال أم لا”.

التدقيق

لقد توصلوا إلى تجربة من شأنها أن تختبر التوصيات التي قدمتها LLMS على خطوط مختلفة ، وتضيق طلباتهم إلى العلماء المنشورة في مجلة الجمعية الفيزيائية الأمريكية. لقد طلبوا من هذه LLMs توصيات مختلفة ، مثل أهمها في بعض المجالات أو التعرف على خبراء من فترات زمنية معينة.

بينما لم يتمكنوا من ذلكاختبار للتأثير المطلق للعالم – لا مثل هذا الحقيقة الأرضية “لهذا موجود – التجربة سخرت بعض النتائج المثيرة للاهتمام. ورقتها ، والتي تتوفر حاليًا على أنها أ preprintيقترح أن العلماء الآسيويين ممثلة تمثيلا ناقصا بشكل كبير في التوصيات المقدمة من LLMs ، وأن التحيزات الحالية ضد المؤلفين غالبا ما يتم تكرارها.

على الرغم من الإرشادات التفصيلية ، في بعض الحالات ، ستعمل هذه النماذج على أسماء العلماء ، لا سيما عند طلب قوائم كبيرة من التوصيات ، ولن تكون قادرة دائمًا على التمييز بين مجالات الخبرة المختلفة.

لا يمكن اعتبار LLMs كقواعد بيانات مباشرة ، لأنها نماذج لغوية “.

كان أحد الاختبارات هو مطالبة LLM باسم عالم وطلبه من شخص من ملف تعريف أكاديمي مماثل – أ التوأم الإحصائي “. لكن عندما فعلوا هذا ، ليس فقط العلماء الذين يعملون بالفعل في مجال مماثل ، ولكن أيضًا الأشخاص الذين يحملون اسمًا مشابهًا “يضيف Barolo.

كما هو الحال مع جميع التجارب ، هناك قيود معينة: لبداية ، تم إجراء هذه الدراسة فقط على نماذج مفتوحة الوزن. هذه لها درجة من الشفافية ، على الرغم من أنها ليست بقدر نماذج مفتوحة المصدر بالكامل. يمكن للمستخدمين تعيين معلمات معينة وتعديل بنية الخوارزميات المستخدمة لضبط مخرجاتها. على النقيض من ذلك ، فإن معظم نماذج الأساس الأكبر عبارة عن وزن مغلق ، مع الحد الأدنى من الشفافية وفرص التخصيص.

ولكن حتى نماذج الوزن المفتوح تتعارض مع القضايا. لا تعرف تمامًا كيفية إجراء عملية التدريب وأي بيانات تدريب تم استخدامها “.

تم إجراء البحث على إصدارات Metaنماذج L llama ، GoogleS Gemma (نموذج أكثر خفيفة الوزن من الجوزاء الرائدة) ونموذج من MISTRAL. لقد تم بالفعل استبدال كل من هذه النماذج الأحدث – وهي مشكلة دائمة لتنفيذ الأبحاث على LLMS ، حيث لا يمكن لخط الأنابيب الأكاديمية أن يتحرك بالسرعة مثل الصناعة.

بصرف النظر عن الوقت اللازم لتنفيذ البحوث نفسها ، يمكن عقد الأوراق لعدة أشهر أو سنوات في المراجعة. علاوة على ذلك ، فإن الافتقار إلى الشفافية والطبيعة المتغيرة لهذه النماذج يمكن أن يخلق صعوبات في استنساخ النتائج ، وهي خطوة حاسمة في العملية العلمية.

تحسن؟

عملت Espín-Noboa سابقًا على تدقيق المزيد من خوارزميات التصنيف المنخفضة التقنية. في عام 2022 ، نشرت ورقة تحلل آثار Pagerank – الخوارزمية التي يمكن القول أنها أعطت Google اختراقها الكبير في أواخر التسعينيات. منذ ذلك الحين تم استخدامه بواسطة LinkedIn و Twitter و Google Scholar.

تم تصميم Pagerank لإجراء حساب بناءً على عدد الروابط التي يوجد بها عنصر في الشبكة. في حالة صفحات الويب ، قد يكون هذا هو عدد المواقع الإلكترونية إلى موقع معين ؛ أو بالنسبة للباحثين ، قد يقوم بحساب مماثل على أساس تأليف مشترك.

إسبن-نوبواتظهر الأبحاث S أن الخوارزمية لديها مشاكلها الخاصة – فقد تعمل على حرمان مجموعات الأقليات. على الرغم من ذلك ، لا يزال Pagerank مصممًا بشكل أساسي مع وضع توصيات في الاعتبار.

في المقابل، يقول إسبن-نوبوا ، بدلاً من ذلك ، إن LLMs لا يفهمون أن الترتيب لا يفهمون ما هو الترتيب الآن “.

هناك أيضًا مكون عملي لهذا البحث ، حيث يأمل هؤلاء الباحثون في إنشاء طريقة للأشخاص في النهاية لطلب توصيات أفضل.

يقول بارولو: “إن هدفنا النهائي هو أن يكون لدينا أداة يمكن للمستخدم التفاعل معها بسهولة باستخدام اللغة الطبيعية.

تقول إسبن-نوبوا: “يجب أن تكون الوكالة على المستخدم ، وليس على LLM”. إنها تستخدم مثال GoogleS Gemini Generator Overcrecting for Biass – يمثل الآباء المؤسسين الأمريكيين (والجنود النازيين) كأشخاص ملونون بعد تحديث واحد ، ويؤدي إلى وجوده تعليق مؤقتا من قبل الشركة.

بدلاً من وجود شركات ومبرمجين تقنية تتخذ قرارات شاملة على النموذجإخراج S ، يجب أن يكون المستخدمون قادرين على اختيار المشكلات الأكثر أهمية لهم.

الصورة الأكبر

تحدث أبحاث مثل الاستمرار في مركز علوم التعقيد في جميع أنحاء أوروبا والعالم ، حيث يتسابق العلماء لفهم كيف تؤثر هذه التقنيات الجديدة على حياتنا.

الأوساط الأكاديمية لديها يقول لارا جروفز ، الباحثة الكبرى في معهد أدا لوفليس. بعد أن درست كيفية إجراء عمليات التدقيق في سياقات مختلفة ، تقول جروفز لمجموعات من الأكاديميين – مثل السنوي Facct مؤتمر حول الإنصاف والشفافية والمساءلة – هي تحديد شروط المشاركة “لعمليات التدقيق.

حتى بدون الوصول الكامل إلى بيانات التدريب والخوارزميات التي تم بناؤها هذه الأدوات ، فإن الأوساط الأكاديمية لديها بناء قاعدة الأدلة لكيفية ومتى يمكنك القيام بهذه التدقيقات “. لكنها تحذر من أن هذه الجهود يمكن أن تعوقها مستوى الوصول الذي يتم توفير الباحثين معهم ، لأنهم غالبًا ما يكونون قادرين على النظر في مخرجاتهم.

على الرغم من ذلك ، فإنها ترغب في رؤية المزيد من التقييمات في طبقة نموذج الأساس “. تستمر Groves: هذه الأنظمة العشوائية للغاية وديناميكية للغاية ، لذلك فهيمن المستحيل معرفة نطاق المخرجات في اتجاه المنبع. ” وبعبارة أخرى ، فإن التباين الهائل لما تنتجه LLMs يعني أننا يجب أن نتحقق من الغطاء قبل أن نبدأ في النظر في حالات استخدامها.

الصناعات الأخرى – مثل الطيران أو الأمن السيبراني – لديها بالفعل عمليات صارمة للتدقيق. ليس الأمر كما لو أننا نعمل من المبادئ الأولى أو من لا شيء. هو – هيS تحديد أي من هذه الآليات والمناهج التي تشبه الذكاء الاصطناعي ، “يضيف Groves.

وسط سباق التسلح من أجل تفوق الذكاء الاصطناعي ، يتم حراسة أي اختبار من قبل اللاعبين الرئيسيين. كانت هناك لحظات من الانفتاح: في أغسطس ، Openai و Anthropic أجرت عمليات تدقيق على بعضها البعضنماذج S. وأصدرت نتائجهم للجمهور.

سيظل الكثير من أعمال استجواب LLMs يسقطون على من خارج الخيمة. قد يسمح لنا الأبحاث المنهجية المستقلة بإلقاء نظرة على ماS يقود هذه الأدوات ، وربما حتى إعادة تشكيلها للأفضل.



Source link

زر الذهاب إلى الأعلى