أدوات GenAI “لا يمكن أن توجد” إذا أجبرت الشركات على دفع حقوق الطبع والنشر
ادعت شركة Anthropic للذكاء الاصطناعي التوليدي (GenAI) أمام محكمة أمريكية أن استخدام المحتوى المحمي بحقوق الطبع والنشر في بيانات تدريب نموذج اللغة الكبيرة (LLM) يعتبر “استخدامًا عادلاً”، وأن “أدوات الذكاء الاصطناعي ذات الأغراض العامة اليوم لا يمكن أن توجد ببساطة” إذا كان الذكاء الاصطناعي كان على الشركات أن تدفع تراخيص لهذه المواد.
بموجب قانون الولايات المتحدة، يسمح “الاستخدام العادل” بالاستخدام المحدود للمواد المحمية بحقوق الطبع والنشر دون إذن، لأغراض مثل النقد وإعداد التقارير الإخبارية والتدريس والبحث.
في أكتوبر 2023، بدأت مجموعة من ناشري الموسيقى، بما في ذلك Concord وUniversal Music Group وABKCO، إجراءات قانونية ضد شركة Amazon وGoogle المدعومة. الذكاء الاصطناعي التوليدي شركة Anthropic، تطالب بتعويضات محتملة بالملايين بسبب “الانتهاك المنهجي والواسع النطاق لكلمات الأغاني المحمية بحقوق الطبع والنشر”.
ال الايداعزعمت الدعوى المقدمة إلى محكمة مقاطعة تينيسي، أن شركة أنثروبيك، أثناء بناء وتشغيل نماذج الذكاء الاصطناعي الخاصة بها، “تنسخ وتنشر بشكل غير قانوني كميات هائلة من الأعمال المحمية بحقوق الطبع والنشر – بما في ذلك كلمات عدد لا يحصى من المؤلفات الموسيقية التي يملكها الناشرون أو يسيطرون عليها”.
وأضافت أنه على الرغم من أن تكنولوجيا الذكاء الاصطناعي قد تكون معقدة ومتطورة، إلا أن القضايا القانونية المتعلقة باستخدام المواد المحمية بحقوق الطبع والنشر “مباشرة وطويلة الأمد”.
وقالت: “لا يمكن للمدعى عليه إعادة إنتاج وتوزيع وعرض أعمال شخص آخر محمية بحقوق الطبع والنشر لإنشاء أعماله الخاصة ما لم يحصل على إذن من صاحب الحقوق”. “هذا المبدأ لا يسقط لمجرد أن الشركة تزين انتهاكها بكلمات “الذكاء الاصطناعي”.”
وزعم الطلب أيضًا أن فشل Anthropic في تأمين أذونات حقوق الطبع والنشر “يحرم الناشرين ومؤلفي الأغاني من السيطرة على أعمالهم المحمية بحقوق الطبع والنشر والفوائد التي حصلوا عليها بشق الأنفس من مساعيهم الإبداعية”.
وللتخفيف من هذه المشكلة، يطالب ناشرو الموسيقى المحكمة بدفع تعويضات لشركة أنثروبيك؛ تقديم محاسبة لبيانات وأساليب التدريب الخاصة بها ؛ وتدمير جميع “النسخ المخالفة” من العمل الموجودة في حوزة الشركة.
ومع ذلك، في أ استسلام وفي تقديمها إلى مكتب حقوق الطبع والنشر الأمريكي في 30 أكتوبر (الذي كان منفصلًا تمامًا عن القضية)، قالت شركة أنثروبيك إن تدريب نموذج الذكاء الاصطناعي الخاص بها كلود “يؤهل باعتباره استخدامًا قانونيًا جوهريًا للمواد”، وجادلت بأنه “إلى الحد الذي يتم فيه استخدام الأعمال المحمية بحقوق الطبع والنشر”. أما في البيانات التدريبية فهي لتحليل (العلاقات الإحصائية بين الكلمات والمفاهيم) لا علاقة لها بأي غرض تعبيري للعمل.
وأضافت: “إن استخدام الأعمال لتدريب كلود أمر عادل لأنه لا يمنع بيع الأعمال الأصلية، وحتى عندما تكون تجارية، فإنه لا يزال يشكل تحويلاً كافياً”.
حول إمكانية وجود نظام ترخيص ل استيعاب LLM للمحتوى المحمي بحقوق الطبع والنشر، زعمت أنثروبيك أن طلب التراخيص دائمًا سيكون غير مناسب، لأنه سيمنع الوصول إلى الغالبية العظمى من الأعمال ويستفيد “فقط الكيانات ذات الموارد العالية” القادرة على دفع طريقها نحو الامتثال.
وقالت: “إن اشتراط ترخيص للاستخدام غير التعبيري للأعمال المحمية بحقوق الطبع والنشر لتدريب حاملي الحقوق القانونية بشكل فعال يعني إعاقة استخدام الأفكار والحقائق وغيرها من المواد غير الخاضعة لحقوق الطبع والنشر”. “حتى على افتراض أن جوانب مجموعة البيانات قد توفر “وزنًا” أكبر لمخرجات معينة من غيرها، فإن النموذج أكثر من مجرد مجموع أجزائه.
“وبالتالي، سيكون من الصعب تحديد معدل إتاوة مفيد للمبدعين الأفراد دون جعل تطوير نماذج الذكاء الاصطناعي التوليدية غير اقتصادي في المقام الأول.”
في وثيقة مكونة من 40 صفحة مقدمة إلى المحكمة في 16 يناير 2024 (ردًا على وجه التحديد على أ “طلب أمر قضائي أولي” وقد تقدمت شركة Anthropic بنفس الحجة إلى أبعد من ذلك، مدعية أنه “لن يكون من الممكن جمع محتوى كافٍ لتدريب حامل ماجستير في القانون مثل كلود في معاملات الترخيص المستقلة، بأي ثمن”.
وأضافت أن الأنثروبيك ليست الوحيدة التي تستخدم البيانات “التي تم تجميعها على نطاق واسع من الإنترنت المتاحة للجمهور”، وأنه “من الناحية العملية، لا توجد طريقة أخرى لتجميع مجموعة تدريبية بالحجم والتنوع اللازمين لتدريب ماجستير في القانون المعقد مع مجموعة واسعة من فهم اللغة الإنسانية والعالم بشكل عام”.
وقالت: “إن أي إدراج لكلمات أغاني المدعين – أو أي محتوى آخر ينعكس في مجموعات البيانات هذه – سيكون ببساطة نتيجة ثانوية للنهج الوحيد القابل للتطبيق لحل هذا التحدي الفني”.
وادعى أيضًا أن حجم مجموعات البيانات المطلوبة لتدريب حاملي الحقوق هو ببساطة أكبر من أن يعمل نظام ترخيص فعال: “لا يمكن للمرء الدخول في معاملات ترخيص مع عدد كافٍ من أصحاب الحقوق لتغطية مليارات النصوص اللازمة لإنتاج تريليونات من الرموز المميزة التي تتطلبها LLM للأغراض العامة للتدريب المناسب. إذا كانت هناك حاجة إلى تراخيص لتدريب حاملي شهادة الماجستير في القانون على المحتوى المحمي بحقوق الطبع والنشر، فإن أدوات الذكاء الاصطناعي ذات الأغراض العامة اليوم لا يمكن أن توجد ببساطة.
وبينما ادعى ناشرو الموسيقى في دعواهم أن شركة Anthropic يمكنها بسهولة استبعاد المواد المحمية بحقوق الطبع والنشر من مجموعة التدريب الخاصة بها، قالت الشركة إنها نفذت بالفعل “مجموعة واسعة من الضمانات لمنع حدوث هذا النوع من الاستنساخ”، بما في ذلك وضع حدود غير محددة على ما يمكن للنموذج إعادة إنتاجه وتدريب النموذج على التعرف على المواد المحمية بحقوق الطبع والنشر، من بين “أساليب أخرى”.
وأضافت أنه على الرغم من أن هذه التدابير فعالة بشكل عام، إلا أنها ليست مثالية: “صحيح أنه، خاصة بالنسبة للمستخدم الذي شرع في إساءة استخدام Claude عمدًا لحمله على إخراج أجزاء مادية من الأعمال المحمية بحقوق الطبع والنشر، فإن بعض النصوص الأقصر قد تتسلل عبر دفاعات متعددة الجوانب وضعتها الأنثروبولوجيا.
“فيما يتعلق بالأغاني المحددة التي هي موضوع هذه الدعوى، لم يستشهد المدعون بأي دليل على أن أي منها، ناهيك عن جميعها، قد تم إخراجها إلى أي مستخدم آخر غير المدعين أو وكلائهم.”
حالات حقوق الطبع والنشر مماثلة تم رفع دعوى قضائية ضد شركات أخرى لاستخدامها الذكاء الاصطناعي التوليدي، بما في ذلك OpenAI وStability AI، بالإضافة إلى عمالقة التكنولوجيا Microsoft وGoogle وMeta. لم يتم اتخاذ أي قرارات من قبل أي محكمة حتى تاريخ النشر، ولكن النتائج النهائية ستبدأ في وضع سوابق لمستقبل التكنولوجيا.
فيه ملاحظات إلى مكتب حقوق الطبع والنشر الأمريكي (مرة أخرى، بشكل منفصل تمامًا عن القضية المرفوعة الآن ضد شركات التكنولوجيا وغيرها من الشركات)، قالت الجمعية الأمريكية للملحنين والمؤلفين والناشرين (ASCAP): “استنادًا إلى فهمنا الحالي لكيفية إنتاج الذكاء الاصطناعي “يتم تدريب النماذج ونشرها، ولا نعتقد أن هناك أي سيناريو واقعي يشكل بموجبه الاستخدام غير المصرح به وغير الشخصي للأعمال المحمية بحقوق الطبع والنشر لتدريب نماذج الذكاء الاصطناعي التوليدية استخدامًا عادلاً، وبالتالي، يلزم موافقة أصحاب حقوق الطبع والنشر.”
وفي تناقض تام مع الأنثروبيك، زعمت أيضًا أن: “استخدام المواد المحمية بحقوق الطبع والنشر من أجل التطوير [of] نماذج الذكاء الاصطناعي التوليدية ليست تحويلية. كل استخدام غير مصرح به للمواد المحمية بحقوق الطبع والنشر أثناء عملية التدريب يتم لتعزيز غرض تجاري.
في سبتمبر 2023، أي قبل شهر واحد فقط من تقديم ناشرو الموسيقى لشكوىهم القانونية، أنثروبيك أعلن أن عملاق التجارة الإلكترونية أمازون سيستثمر ما يصل إلى 4 مليارات دولار في الشركة، بالإضافة إلى الحصول على حصة أقلية فيها. في فبراير 2023، استثمرت جوجل حوالي 300 مليون جنيه استرليني في الشركة واستحوذ على 10% من أسهمها. كما قدم سام بانكمان فرايد، مؤسس FTX المشين، مبلغ 500 مليون دولار لشركة Anthropic في أبريل 2022 قبل تقديم طلب الإفلاس في نوفمبر من ذلك العام.