يستخدم Google الذي يزن “Project Ellmann” Gemini AI لسرد قصص الحياة
اقترح فريق في Google استخدام تقنية الذكاء الاصطناعي لإنشاء رؤية شاملة لحياة المستخدمين باستخدام بيانات الهاتف المحمول مثل الصور الفوتوغرافية وعمليات البحث.
الفكرة التي أطلق عليها اسم “مشروع إيلمان”، على اسم كاتب السيرة الذاتية والناقد الأدبي ريتشارد ديفيد إيلمان، تتمثل في استخدام حاملي شهادات الماجستير مثل Gemini لاستيعاب نتائج البحث، وتحديد الأنماط في صور المستخدم، وإنشاء روبوت دردشة، و”الإجابة على الأسئلة التي كانت مستحيلة سابقًا”، وفقًا لما ذكره موقع “the verge”. نسخة من العرض التقديمي الذي شاهدته CNBC. وينص على أن هدف إيلمان هو أن يكون “راوي قصة حياتك”.
ليس من الواضح ما إذا كانت الشركة لديها خطط لإنتاج هذه الإمكانات داخل صور Google أو أي منتج آخر. لدى صور Google أكثر من مليار مستخدم وأربعة تريليونات صورة ومقطع فيديو، وفقًا لشركة مشاركة مدونة.
يعد مشروع Ellman مجرد إحدى الطرق العديدة التي تقترحها Google لإنشاء منتجاتها أو تحسينها باستخدام تقنية الذكاء الاصطناعي. يوم الاربعاء جوجل أطلقت أحدث طراز للذكاء الاصطناعي “الأكثر قدرة” وتقدمًا حتى الآن، Gemini، والذي تفوق في بعض الحالات على GPT-4 الخاص بـ OpenAI. تخطط الشركة لترخيص Gemini لمجموعة واسعة من العملاء من خلال Google Cloud ليستخدموها في تطبيقاتهم الخاصة. إحدى ميزات Gemini البارزة هي أنه متعدد الوسائط، مما يعني أنه يمكنه معالجة وفهم المعلومات بما يتجاوز النص، بما في ذلك الصور والفيديو والصوت.
مدير المنتج ل جوجل عرضت الصور مشروع Ellman جنبًا إلى جنب مع فرق Gemini في قمة داخلية عقدت مؤخرًا، وفقًا للوثائق التي اطلعت عليها CNBC. لقد كتبوا أن الفرق أمضت الأشهر القليلة الماضية في تحديد أن نماذج اللغات الكبيرة هي التقنية المثالية لجعل هذا النهج الشامل لقصة حياة المرء حقيقة واقعة.
يمكن لـ Ellmann رسم السياق باستخدام السير الذاتية واللحظات السابقة والصور اللاحقة لوصف صور المستخدم بشكل أكثر عمقًا من “مجرد وحدات بكسل تحتوي على تسميات وبيانات وصفية”، كما ينص العرض التقديمي. يقترح أن تكون قادرًا على تحديد سلسلة من اللحظات مثل سنوات الجامعة، وسنوات منطقة الخليج، وسنوات كوالد.
“لا يمكننا الإجابة على الأسئلة الصعبة أو سرد قصص جيدة دون رؤية شاملة لحياتك”، هذا ما جاء في أحد الأوصاف بجانب صورة لصبي صغير يلعب مع كلب في التراب.
تقول شريحة العرض التقديمي: “نحن نتصفح صورك، وننظر إلى علاماتها ومواقعها لتحديد لحظة ذات معنى”. “عندما نرجع إلى الوراء ونفهم حياتك بأكملها، تصبح قصتك الشاملة واضحة.”
وقال العرض التقديمي إن نماذج اللغة الكبيرة يمكن أن تستنتج لحظات مثل ولادة طفل المستخدم. “يمكن لماجستير القانون هذا استخدام المعرفة من أعلى الشجرة لاستنتاج أن هذا هو ميلاد جاك، وأنه الطفل الأول والوحيد لجيمس وجيما.”
“أحد الأسباب التي تجعل LLM قويًا للغاية بالنسبة لهذا النهج التنموي، هو أنه قادر على أخذ سياق غير منظم من جميع الارتفاعات المختلفة عبر هذه الشجرة، واستخدامه لتحسين كيفية فهم المناطق الأخرى من الشجرة،” قراءة الشرائح، جنبًا إلى جنب مع رسم توضيحي “لللحظات” و”الفصول” المختلفة في حياة المستخدم.
قدم مقدمو العرض مثالاً آخر لتحديد أن أحد المستخدمين قد حضر مؤخرًا لم شمل الفصل الدراسي. واستنتج الفريق في عرضه التقديمي: “لقد مرت 10 سنوات بالضبط منذ تخرجه، وهو مليء بالوجوه التي لم نرها منذ 10 سنوات، لذا فمن المحتمل أن يكون لم شمل”.
كما أظهر الفريق أيضًا “Ellmann Chat” مع الوصف: “تخيل فتح ChatGPT ولكنه يعرف بالفعل كل شيء عن حياتك. ما الذي ستطرحه؟”
يتم عرض نموذج للدردشة يسأل فيه المستخدم “هل لدي حيوان أليف؟” فأجاب بنعم، لدى المستخدم كلب يرتدي معطفًا أحمر اللون، ثم قدم اسم الكلب وأسماء أفراد العائلة اللذين غالبًا ما يتم رؤيته معهم.
مثال آخر للدردشة هو سؤال المستخدم عن آخر زيارة قام بها إخوته. وطلب آخر منه إدراج مدن مشابهة للمكان الذي يعيشون فيه لأنهم يفكرون في الانتقال. عرض إيلمان إجابات على كليهما.
وأظهرت شرائح أخرى أن إيلمان قدم أيضًا ملخصًا لعادات الأكل لدى المستخدم. “يبدو أنك تستمتع بالطعام الإيطالي. هناك عدة صور لأطباق المعكرونة، بالإضافة إلى صورة للبيتزا.” وذكر أيضًا أن المستخدم يبدو أنه يستمتع بالطعام الجديد لأن إحدى صوره تحتوي على قائمة تحتوي على طبق لم يتعرف عليه.
وذكر العرض التقديمي أن التكنولوجيا تحدد أيضًا المنتجات التي كان المستخدم يفكر في شرائها، واهتماماته، وعمله، وخطط سفره بناءً على لقطات الشاشة الخاصة بالمستخدم. واقترحت أيضًا أنها ستكون قادرة على معرفة مواقع الويب والتطبيقات المفضلة لديهم، مع إعطاء أمثلة على Google Docs وReddit وInstagram.
صرح متحدث باسم Google لـ CNBC، “لقد استخدمت صور Google دائمًا الذكاء الاصطناعي لمساعدة الأشخاص في البحث عن الصور ومقاطع الفيديو الخاصة بهم، ونحن متحمسون بشأن إمكانات LLM لفتح المزيد من التجارب المفيدة. هذا هو مفهوم العصف الذهني الذي يقوم به الفريق في وقت مبكر مراحل الاستكشاف. وكما هو الحال دائمًا، سنأخذ الوقت اللازم لضمان القيام بذلك بشكل مسؤول، وحماية خصوصية المستخدمين باعتبارها أولويتنا القصوى.
سباق شركات التكنولوجيا الكبرى لإنشاء “ذكريات” تعتمد على الذكاء الاصطناعي
يمكن لمشروع Ellmann المقترح أن يساعد Google في سباق التسلح بين عمالقة التكنولوجيا لإنشاء ذكريات حياة أكثر تخصيصًا.
لقد قدمت صور Google وApple Photos لسنوات “ذكريات” وأنشأت ألبومات بناءً على الاتجاهات السائدة في الصور.
جوجل في نوفمبر أعلن أنه بمساعدة الذكاء الاصطناعي، يمكن لـ Google Photos الآن تجميع الصور المتشابهة معًا وتنظيم لقطات الشاشة في ألبومات يسهل العثور عليها.
أعلنت شركة Apple في شهر يونيو أن آخر تحديث لبرنامجها سيتضمن قدرة تطبيق الصور الخاص بها على التعرف على الأشخاص والكلاب والقطط في صورهم. بالفعل يفرز الوجوه ويتيح للمستخدمين البحث عنهم بالاسم.
تفاحة كما أعلنت عن تطبيق Journal قادم، والذي سيستخدم الذكاء الاصطناعي الموجود على الجهاز لإنشاء اقتراحات مخصصة لمطالبة المستخدمين بكتابة مقاطع تصف ذكرياتهم وتجاربهم بناءً على الصور والمواقع والموسيقى والتدريبات الحديثة.
لكن شركات آبل وجوجل وغيرها من عمالقة التكنولوجيا لا تزال تتصارع مع تعقيدات عرض الصور وتحديدها بشكل مناسب.
على سبيل المثال، لا تزال شركتا Apple وGoogle تتجنبان تصنيف الغوريلا بعد أن وجدت تقارير في عام 2015 أن الشركة تصنف بشكل خاطئ الأشخاص السود على أنهم غوريلا. نيويورك تايمز تحقيق ووجدت هذا العام أن برنامجي أندرويد من أبل وجوجل، والذي تدعمه معظم الهواتف الذكية في العالم، أوقف القدرة على البحث بصريًا عن الرئيسيات خوفًا من تصنيف الشخص على أنه حيوان.
الشركات بما في ذلك جوجل، فيسبوك وقد أضافت شركة Apple بمرور الوقت عناصر تحكم لتقليل الذكريات غير المرغوب فيها، لكن المستخدمين أبلغوا عن ذلك في بعض الأحيان لا يزال السطح الذكريات غير المرغوب فيها وتطلب من المستخدمين التبديل بين عدة إعدادات لتقليلها.