أخبار التقنية

وجد الباحثون أن GPT ونماذج الذكاء الاصطناعي الأخرى لا يمكنها تحليل ملفات SEC


المؤسسان المشاركان لشركة Patronus AI أناند كانابان وريبيكا تشيان

باترونوس آي

وجد باحثون من شركة ناشئة تسمى Patronus AI أن النماذج اللغوية الكبيرة، المشابهة لتلك الموجودة في قلب ChatGPT، كثيرًا ما تفشل في الإجابة على الأسئلة المستمدة من إيداعات لجنة الأوراق المالية والبورصة.

حتى أفضل تكوين نموذج للذكاء الاصطناعي أداءً تم اختباره، وهو GPT-4-Turbo من OpenAI، عندما تم تسليحه بالقدرة على قراءة ملف كامل تقريبًا إلى جانب السؤال، حصل على 79٪ فقط من الإجابات الصحيحة في اختبار Patronus AI الجديد، وهو اختبار مؤسسي الشركة. قال لشبكة سي إن بي سي.

في كثير من الأحيان، يرفض ما يسمى بنماذج اللغة الكبيرة الإجابة، أو قد “يهلوس” بأرقام وحقائق لم تكن موجودة في ملفات هيئة الأوراق المالية والبورصات.

وقال أناند كانابان، المؤسس المشارك لشركة Patronus AI: “هذا النوع من معدل الأداء غير مقبول على الإطلاق”. “يجب أن تكون أعلى بكثير حتى تعمل بطريقة آلية وجاهزة للإنتاج.”

تسلط النتائج الضوء على بعض التحديات التي تواجه نماذج الذكاء الاصطناعي حيث تسعى الشركات الكبرى، وخاصة في الصناعات المنظمة مثل التمويل، إلى دمج التكنولوجيا المتطورة في عملياتها، سواء لخدمة العملاء أو البحث.

يُنظر إلى القدرة على استخراج الأرقام المهمة بسرعة وإجراء تحليل للسرد المالي على أنها واحدة من أكثر التطبيقات الواعدة لروبوتات الدردشة منذ إصدار ChatGPT في أواخر العام الماضي. تمتلئ ملفات هيئة الأوراق المالية والبورصة (SEC) بالبيانات المهمة، وإذا تمكن الروبوت من تلخيصها بدقة أو الإجابة بسرعة على الأسئلة حول محتوياتها، فقد يمنح ذلك المستخدم ميزة في الصناعة المالية التنافسية.

في العام الماضي، تطورت شركة Bloomberg LP نموذج الذكاء الاصطناعي الخاص بها للبيانات المالية، أساتذة كلية إدارة الأعمال بحثت ما إذا كان بإمكان ChatGPT تحليل العناوين المالية، و جي بي مورغان تعمل على أداة استثمار آلية مدعومة بالذكاء الاصطناعي، ذكرت سي إن بي سي في وقت سابق. يمكن للذكاء الاصطناعي التوليدي أن يعزز الصناعة المصرفية بتريليونات الدولارات سنويًا، وهو حديث حديث وقالت توقعات ماكينزي.

لكن دخول GPT إلى الصناعة لم يكن سلسًا. متى مايكروسوفت أطلقت Bing Chat لأول مرة باستخدام OpenAI's GPT، وكان أحد الأمثلة الأساسية لها هو استخدام chatbot لتلخيص بيان صحفي حول الأرباح بسرعة. وسرعان ما أدرك المراقبون أن الأرقام الواردة في مثال مايكروسوفت تم إيقاف، وبعض الأرقام كانت مختلقة بالكامل.

“التحقق من الحيوية”

يقول المؤسسون المشاركون في Patronus AI إن جزءًا من التحدي عند دمج LLMs في المنتجات الفعلية هو أن LLMs غير حتمية – فهي غير مضمونة لإنتاج نفس المخرجات في كل مرة لنفس المدخلات. وهذا يعني أن الشركات ستحتاج إلى إجراء اختبارات أكثر صرامة للتأكد من أنها تعمل بشكل صحيح، ولا تخرج عن الموضوع، وتقدم نتائج موثوقة.

التقى المؤسسون في الشركة الأم لفيسبوك ميتاحيث عملوا على حل مشكلات الذكاء الاصطناعي المتعلقة بفهم كيفية توصل النماذج إلى إجاباتهم وجعلها أكثر “مسؤولية”. قاموا بتأسيس شركة Patronus AI، التي تلقت تمويلًا أوليًا من Lightspeed Venture Partners، لأتمتة اختبار LLM باستخدام البرامج، حتى تشعر الشركات بالراحة لأن روبوتات الذكاء الاصطناعي الخاصة بها لن تفاجئ العملاء أو العاملين بإجابات خارجة عن الموضوع أو إجابات خاطئة.

وقالت ريبيكا تشيان، المؤسس المشارك لشركة Patronus AI: “في الوقت الحالي، يتم التقييم يدويًا إلى حد كبير. يبدو الأمر وكأنه مجرد اختبار عن طريق الفحص”. “أخبرتنا إحدى الشركات أن الأمر يتعلق بفحص الأجواء”.

عملت شركة Patronus AI على كتابة مجموعة مكونة من أكثر من 10000 سؤال وإجابة مستمدة من إيداعات هيئة الأوراق المالية والبورصة من كبرى الشركات المتداولة علنًا، والتي تسميها FinanceBench. تتضمن مجموعة البيانات الإجابات الصحيحة، وكذلك مكان العثور عليها بالضبط في أي ملف معين. لا يمكن استخلاص جميع الإجابات مباشرة من النص، وبعض الأسئلة تتطلب حسابات بسيطة أو تفكيرًا منطقيًا.

يقول تشيان وكانابان إنه اختبار يعطي “الحد الأدنى من معايير الأداء” للغة الذكاء الاصطناعي في القطاع المالي.

فيما يلي بعض الأمثلة على الأسئلة في مجموعة البيانات المقدمة من Patronus AI:

  • هل قامت شركة CVS Health بتوزيع أرباح على المساهمين العاديين في الربع الثاني من السنة المالية 2022؟
  • هل أبلغت AMD عن تركز العملاء في السنة المالية 22؟
  • ما هو هامش تكلفة البضائع المباعة للعام المالي 2021 لشركة كوكا كولا؟ احسب ما تم طلبه باستخدام البنود الموضحة بوضوح في قائمة الدخل.

كيف كان أداء نماذج الذكاء الاصطناعي في الاختبار

قامت شركة Patronus AI باختبار أربعة نماذج لغوية: GPT-4 وGPT-4-Turbo من OpenAI، وAnthropic's Claude 2، وMeta's Llama 2، باستخدام مجموعة فرعية مكونة من 150 سؤالًا أنتجتها.

كما اختبرت أيضًا تكوينات ومطالبات مختلفة، مثل أحد الإعدادات حيث تم إعطاء نماذج OpenAI النص المصدر الدقيق ذي الصلة في السؤال، والذي أطلق عليه وضع “Oracle”. وفي اختبارات أخرى، تم إخبار النماذج بالمكان الذي سيتم فيه تخزين مستندات هيئة الأوراق المالية والبورصات الأساسية، أو إعطاؤها “سياقًا طويلًا”، مما يعني تضمين ملف هيئة الأوراق المالية والبورصة بالكامل تقريبًا إلى جانب السؤال في الموجه.

فشل GPT-4-Turbo في اختبار “الكتاب المغلق” الخاص ببدء التشغيل، حيث لم يتم منحه حق الوصول إلى أي مستند مصدر من SEC. لقد فشل في الإجابة على 88% من الأسئلة الـ 150 التي تم طرحها، ولم يقدم إجابة صحيحة إلا 14 مرة.

لقد كان قادرًا على التحسن بشكل ملحوظ عند منحه إمكانية الوصول إلى التسجيلات الأساسية. في وضع “Oracle”، حيث تمت الإشارة إلى النص الدقيق للإجابة، أجاب GPT-4-Turbo على السؤال بشكل صحيح بنسبة 85% من الوقت، لكنه استمر في تقديم إجابة غير صحيحة بنسبة 15% من الوقت.

لكن هذا اختبار غير واقعي لأنه يتطلب مدخلات بشرية للعثور على المكان المناسب بالضبط في الملف – وهي المهمة الدقيقة التي يأمل الكثيرون أن تتمكن النماذج اللغوية من معالجتها.

كان Llama 2، وهو نموذج ذكاء اصطناعي مفتوح المصدر طورته شركة Meta، يعاني من بعض أسوأ “الهلوسات”، حيث ينتج إجابات خاطئة بنسبة تصل إلى 70% من الوقت، وإجابات صحيحة بنسبة 19% فقط من الوقت، عند منحه إمكانية الوصول إلى مصفوفة من الوثائق الأساسية.

كان أداء Anthropic's Claude 2 جيدًا عندما تم إعطاؤه “سياقًا طويلًا”، حيث تم تضمين ملف SEC بأكمله تقريبًا مع السؤال. استطاع أن يجيب على 75% من الأسئلة التي طرحت عليه، وأعطى إجابة خاطئة لـ 21%، وفشل في الإجابة على 3% فقط. كان أداء GPT-4-Turbo جيدًا أيضًا مع السياق الطويل، حيث أجاب على 79% من الأسئلة بشكل صحيح، وأعطى إجابة خاطئة لـ 17% منها.

بعد إجراء الاختبارات، تفاجأ المؤسسون بمدى سوء أداء النماذج، حتى عندما تم توجيههم إلى مكان الإجابات.

وقال تشيان: “أحد الأشياء المدهشة هو عدد المرات التي رفضت فيها العارضات الإجابة”. “إن معدل الرفض مرتفع حقًا، حتى عندما تكون الإجابة ضمن السياق ويكون الإنسان قادرًا على الإجابة عليها.”

حتى عندما كان أداء النماذج جيدًا، فإنها لم تكن جيدة بما فيه الكفاية، كما وجد Patronus AI.

وقال تشيان: “لا يوجد هامش مقبول للخطأ، لأنه، خاصة في الصناعات الخاضعة للتنظيم، حتى لو حصل النموذج على إجابة خاطئة مرة واحدة من أصل 20 مرة، فإن هذا لا يزال غير دقيق بدرجة كافية”.

لكن المؤسسين المشاركين لـ Patronus AI يعتقدون أن هناك إمكانات هائلة لنماذج اللغة مثل GPT لمساعدة الأشخاص في الصناعة المالية – سواء كانوا محللين أو مستثمرين – إذا استمر الذكاء الاصطناعي في التحسن.

وقال كانابان: “نعتقد بالتأكيد أن النتائج يمكن أن تكون واعدة جدًا”. “ستستمر النماذج في التحسن بمرور الوقت. ونأمل جدًا أنه على المدى الطويل، يمكن أتمتة الكثير من هذا. ولكن اليوم، ستحتاج بالتأكيد إلى وجود إنسان على الأقل في الحلقة للمساعدة في الدعم والتوجيه. مهما كان سير العمل لديك.”

وأشار ممثل OpenAI إلى إرشادات الاستخدام الخاصة بالشركة، والتي تحظر تقديم مشورة مالية مخصصة باستخدام نموذج OpenAI دون قيام شخص مؤهل بمراجعة المعلومات، وتطلب من أي شخص يستخدم نموذج OpenAI في الصناعة المالية تقديم إخلاء مسؤولية لإعلامهم باستخدام الذكاء الاصطناعي وقيوده. تنص سياسات استخدام OpenAI أيضًا على أن نماذج OpenAI لم يتم ضبطها بدقة لتقديم المشورة المالية.

لم ترد Meta على الفور على طلب للتعليق، ولم يكن لدى Anthropic تعليق على الفور.

لا تفوّت هذه القصص من CNBC PRO:



Source link

زر الذهاب إلى الأعلى