الرئيس التنفيذي لشركة Nvidia يثير إصدار قارئ PDF “الثوري” AI
ألقى الرئيس التنفيذي لشركة Nvidia Jensen Huang بمكر خبرًا كبيرًا خلال كلمته الرئيسية يوم الثلاثاء في ندوة Gartner’s IT Symposium / Xpo. يخطط صانع GPU لإصدار قارئ PDF (تنسيق مستند محمول) يدعم الذكاء الاصطناعي.
“إن Nvidia على وشك الإعلان عن قارئ PDF ثوري… PDF، كما تعلمون، من الصعب حقًا فهمه بالنسبة للذكاء الاصطناعي… لذلك هناك مجموعة كاملة من الأشياء التي يمكنك القيام بها هناك،” قال هوانغ أثناء الحديث. ورفض متحدث باسم Nvidia التعليق بعد بيان جنسن.
أنشأت شركة Adobe تنسيق PDF الخاص بها في عام 1993، وفي عام 2008، أصبح معيارًا مفتوحًا. كان الهدف من هذا التنسيق هو إنشاء تنسيق مستند إلكتروني عالمي، وسرعان ما تم اعتماده من قبل العديد من المستخدمين. من المحتمل أن يكون لدى الجميع من الطلاب والباحثين والمؤسسات والشركات والحكومات مخزون ضخم من مستندات PDF.
في عام 2015، قدرت شركة Adobe أنه قد يكون هناك ما يصل إلى 2.5 تريليون ملف PDF موجود.
هذه بيانات كثيرة يمكن أن تكون مفيدة جدًا للتعلم الآلي والذكاء الاصطناعي. على الرغم من وجود أدوات يمكنها استخراج الصور والنصوص من التنسيق، إلا أن الذكاء الاصطناعي لم يتمكن من استخراج المعلومات مباشرة من ملفات PDF. إذا حققت Nvidia هذا الهدف، فقد تكون الآثار المترتبة على المؤسسات والشركات هائلة ويمكن أن تكون قفزة هائلة إلى الأمام في علوم البيانات والتعلم الآلي.
بالنسبة لأي شركة، يعد تجميع البيانات خطوة حاسمة نحو اعتماد الذكاء الاصطناعي ويمكن ربط جبال من البيانات القابلة للاستخدام بتنسيق PDF.
قيمة PDF إلى التزامات الدين المضمونة
يتم تصنيف ملفات PDF حاليًا على أنها بيانات غير منظمة، والتي لا يمكن استخدامها على الفور في حالات الاستخدام مثل تحليلات الأعمال. تتسابق الشركات حاليًا لتجميع البيانات المنظمة وغير المنظمة لاستخدامات متعددة أثناء اعتمادها لـ GenAI.
في حين أنه من الممكن استخدام أدوات مثل GPT-4، إلا أن نماذج اللغات الكبيرة بشكل عام تواجه صعوبة في تركيب ملفات PDF دون أخطاء وهلوسة كبيرة. هناك تقنيات لاستخراج البيانات، لكنها تستغرق وقتًا طويلاً وتتطلب عمالة كثيفة. إن الحل الفعال والسريع لتوليف PDF من شأنه أن يوفر التكلفة والوقت الكبيرين في استخدام هذه البيانات غير المنظمة.
ترى أليسون ساغريفز، الرئيس التنفيذي السابق لبنك M&T والتي تدير الآن شركة استشارية خاصة بها، قيمة هائلة في التطورات في قدرات الذكاء الاصطناعي على قراءة ملفات PDF.
وقالت لمجلة InformationWeek في مقابلة عبر البريد الإلكتروني: “نحن على وشك لحظة “فليكن هناك ضوء” في عالم البيانات”. “إن المعلومات الأكثر قيمة التي نمتلكها غالبًا ما تكون “البيانات المظلمة” – وهي الرؤى الواسعة وغير المستغلة المخفية داخل المستندات وملفات العقود والبيانات المالية. تتمتع هذه البيانات التي تم التغاضي عنها بالقدرة على إعادة تشكيل كيفية فهمنا لكل شيء، بدءًا من سلوك العملاء وحتى مخاطر السوق والفرص الناشئة. حتى الآن، كان الكثير منها في الظل”.
حققت شركات أخرى مكاسب في البيانات غير المنظمة. أصدرت Salesforce مؤخرًا منتجًا لغربلة البيانات غير المنظمة من خلال منتجها الذي تم إطلاقه حديثًا قاعدة ناقلات سحابة البيانات. لكن المزيد من التقدم يمكن أن يؤدي إلى نتائج أسرع تؤدي إلى عائد أفضل على الاستثمار.
يقول ساجريفز: “بفضل الذكاء الاصطناعي المتطور، بدأنا في تسليط الضوء على هذه الأفكار الغامضة”. “إن Nvidia في الطليعة، حيث تعمل على تطوير نماذج متطورة قادرة على رسم اتصالات عبر الأنظمة البيئية للمستندات بأكملها. التأثير المحتمل عميق … القدرات التي طالما حلمنا بها – مثل التخصيص الفائق الحقيقي على نطاق واسع – أصبحت الآن في متناول اليد.”
ما وراء المؤسسة
في حين أن الآثار المترتبة على التقدم الثوري الحقيقي في قدرات البيانات غير المنظمة مثيرة للشركات، إلا أنه لا ينبغي التقليل من تأثيرها على البشرية بشكل عام، كما يقول الخبراء.
تقول ديشا هارجاني، مستشارة GenAI، التي كانت تعمل سابقًا لدى Shutterstock وAdobe، إن التكنولوجيا الجديدة التي يمكنها قراءة ملفات PDF بسهولة ستكون مفيدة للشركات وعامة الناس على حدٍ سواء.
“يمكن أن يؤدي هذا إلى المزيد من التكنولوجيا التي يمكنها استيعاب مستندات نصية كبيرة وتحليلها حسب الرأس والتذييل والنص والنقطة الرئيسية للورقة، والمزيد،” كما قالت لـ InformationWeek في مقابلة عبر البريد الإلكتروني. “قد يساعد هذا في بناء منتجات يمكنها “تصمم” أنواعًا مختلفة من مشاريع الكتابة أو حتى منتجات للصناعات التي لديها أرشيفات تاريخية هائلة، مثل المجالات الطبية والأنثروبولوجية.”