Deepseek-R1: تحديات الميزانية للنشر المحليين

حتى الآن ، يحتاج قادة تكنولوجيا المعلومات إلى النظر في مخاطر الأمن السيبراني الذي يطرحه المستخدمون للوصول إلى نماذج لغة كبيرة (LLMS) مثل ChatGPT مباشرة عبر السحابة. كان البديل للاستخدام مفتوح المصدر LLMS يمكن استضافتها بالتواصل أو الوصول إليها عبر سحابة خاصة.
يحتاج نموذج الذكاء الاصطناعي (AI) تشغيل في الذاكرة وعند استخدام وحدات معالجة الرسومات (GPU) لتسارع الذكاء الاصطناعي ، فإن هذا يعني أن قادة تكنولوجيا المعلومات بحاجة إلى النظر في التكاليف المرتبطة بشراء البنوك من وحدات معالجة الرسومات لتربية ذاكرة كافية للاحتفاظ بالنموذج بأكمله.
تسارع NVIDIA المتطور من الذكاء الاصطناعي تم تكوين GPU ، H100 ، مع 80GBYTES من ذاكرة الوصول العشوائي (RAM) ، ويظهر مواصفاتها تصنيفها عند 350 واط من حيث استخدام الطاقة.
تمكنت ديبسيك من الصين من إثبات أن R1 LLM يمكن أن تنافس الذكاء الاصطناعي الأمريكي دون الحاجة إلى اللجوء إلى أحدث أجهزة GPU. ومع ذلك ، فإنه يستفيد من تسارع الذكاء الاصطناعي القائم على وحدة معالجة الرسومات.
ومع ذلك ، فإن نشر نسخة خاصة من Deepseek لا يزال يتطلب استثمارًا كبيرًا في الأجهزة. لتشغيل نموذج Deepseek-R1 بالكامل ، الذي يحتوي على 671 مليار معلمة في الذاكرة ، يتطلب 768GBYTES من الذاكرة. باستخدام NVIDIA H100 GPU ، التي تم تكوينها باستخدام 80GBYTES من بطاقة ذاكرة الفيديو لكل منها ، ستكون هناك حاجة إلى 10 لضمان تشغيل نموذج DeepSeek-R1 بالكامل في الذاكرة.
قد يكون قادة تكنولوجيا المعلومات قادرين على التفاوض على خصومات الحجم ، ولكن تكلفة أجهزة تسريع الذكاء الاصطناعى فقط لتشغيل Deepseek حوالي 250،000 دولار.
يمكن استخدام وحدات معالجة الرسومات الأقل قوة ، مما قد يساعد في تقليل هذا الرقم. ولكن بالنظر إلى أسعار GPU الحالية ، فإن الخادم القادر على تشغيل طراز Deepseek-R1 الكامل البالغ 670 مليار دولار سيكلف أكثر من 100000 دولار.
يمكن تشغيل الخادم البنية التحتية السحابية العامة. Azure ، على سبيل المثال ، يقدم الوصول إلى NVIDIA H100 مع 900 GBYTES من الذاكرة مقابل 27.167 دولار في الساعة ، والتي ، على الورق ، ينبغي بسهولة أن يكون قادرًا على تشغيل نموذج Deepseek-R1 المعجمي 671 مليار مقياس.
إذا تم استخدام هذا النموذج كل يوم عمل ، وتواصل أسبوعًا لمدة 35 ساعة وأربعة أسابيع في السنة والتعطل ، فإن فاتورة Azure السنوية ستكون ما يقرب من 46000 دولار سنويًا. مرة أخرى ، يمكن تخفيض هذا الرقم بشكل كبير إلى 16.63 دولار في الساعة (23000 دولار) في السنة إذا كان هناك التزام لمدة ثلاث سنوات.
من الواضح أن GPUs أقل تكلفة أقل تكلفة ، ولكن تكاليف الذاكرة هي التي تجعل هذه الباهظة. على سبيل المثال ، النظر إلى التيار تسعير السحابة من Google، سعر GPU NVIDIA T4 يبلغ 0.35 دولار لكل وحدة معالجة الرسومات في الساعة ، وهو متاح مع ما يصل إلى أربعة وحدات معالجة الرسومات ، مما يعطي ما مجموعه 64 جيجا بايت من الذاكرة مقابل 1.40 دولار في الساعة ، وستكون هناك حاجة إلى 12 لتناسب Deepseek-R1 671 مليار نموذج المعلمة الذاكرة بالكامل ، والتي تعمل بسعر 16.80 دولار في الساعة. مع التزام مدته ثلاث سنوات ، انخفض هذا الرقم إلى 7.68 دولار ، والذي يعمل في أقل بقليل من 13000 دولار في السنة.
نهج أرخص
يمكن لقادة تكنولوجيا المعلومات تقليل التكاليف أكثر من خلال تجنب وحدات معالجة الرسومات باهظة الثمن تمامًا والاعتماد بالكامل على وحدات المعالجة المركزية للأغراض العامة (CPU). هذا الإعداد مناسب حقًا فقط عندما يتم استخدام DeepSeek-R1 بحتة لاستنتاج الذكاء الاصطناعي.
تغريدة حديثة من ماثيو كاريجانيقترح مهندس التعلم الآلي في Hugging Face ، أن يتم بناء مثل هذا النظام باستخدام معالجات خادم AMD EPYC و 768 gbytes من الذاكرة السريعة. يمكن تجميع النظام الذي قدمه في سلسلة من التغريدات مقابل حوالي 6000 دولار.
ورداً على التعليقات على الإعداد ، قال كاريجان إنه قادر على تحقيق معدل معالجة من ستة إلى ثمانية رموز في الثانية ، اعتمادًا على المعالج المحدد وسرعة الذاكرة المثبتة. يعتمد ذلك أيضًا على طول الاستعلام اللغوي الطبيعي ، لكن تغريدةه تتضمن مقطع فيديو يعرض الاستعلام عن قرب الوقت من Deepseek-R1 على الأجهزة التي بنيها استنادًا إلى إعداد AMD EPYC المزدوج و 768gbytes من الذاكرة.
يعترف Carrigan بأن وحدات معالجة الرسومات ستفوز على السرعة ، لكنها مكلفة. في سلسلة التغريدات ، يشير إلى أن كمية الذاكرة المثبتة لها تأثير مباشر على الأداء. ويرجع ذلك إلى الطريقة التي تتذكر بها “Deepseek” استفسارات سابقة للوصول إلى الإجابات بشكل أسرع. تسمى هذه التقنية القيمة الرئيسية (KV) التخزين المؤقت.
وقال: “عند الاختبار باستخدام سياقات أطول ، يكون ذاكرة التخزين المؤقت KV أكبر بالفعل مما أدركت” ، واقترح أن تكوين الأجهزة سيتطلب 1TBYTES من الذاكرة بدلاً من 76GBYTES ، عندما يتم لصق كميات كبيرة من النص أو السياق في DEEPSEEK-R1 موجه الاستعلام.
من المحتمل أن يكون شراء خادم Dell أو HPE أو Lenovo لفعل شيء مماثل أكثر تكلفة بكثير ، اعتمادًا على تكوينات المعالج والذاكرة المحددة.
طريقة مختلفة لمعالجة تكاليف الذاكرة
من بين الأساليب التي يمكن اتخاذها لتقليل تكاليف الذاكرة ، تستخدم مستويات متعددة من الذاكرة التي تتحكم فيها شريحة مخصصة. هذا هو ما قامت به شركة California Startup Sambanova باستخدام وحدة تدفق البيانات القابلة لإعادة التكوين SN40L (RDU) وبنية بيانات البيانات الخاصة بالذاكرة ذات ثلاثة مستويات.
وقال رودريغو ليانغ ، الرئيس التنفيذي لشركة سامبانوفا: “تعتبر Deepseek-R1 واحدة من أكثر طرز AI Frontier Frontier متوفرة ، ولكن إمكاناتها الكاملة كانت محدودة بسبب عدم كفاءة وحدات معالجة الرسومات”.
الشركة ، التي تأسست في عام 2017 من قبل مجموعة من المهندسين السابقين/أوراكل ، ولديها تعاون مستمر مع قسم الهندسة الكهربائية بجامعة ستانفورد ، تدعي أن رقاقة RDU تنهار متطلبات الأجهزة لتشغيل Deepseek-R1 بكفاءة من 40 رفوفًا وصولاً إلى واحد تكوين رف مع 16 RDUs.
في وقت سابق من هذا الشهر في قفزة 2025 مؤتمر في رياده ، وقعت سامبانوفا صفقة لتقديم أول منصة سحابة سحرية في المملكة العربية السعودية. وقال Saud Alsheraihi ، نائب رئيس الحلول الرقمية في شركة الاتصالات السعودية: “يمثل هذا التعاون مع Sambanova علامة فارقة في رحلتنا لتمكين الشركات السعودية مع قدرات AI السيادية. من خلال تقديم منصة استنتاجية آمنة وقابلة للتطوير كخدمة ، فإننا نمكّن المؤسسات من فتح الإمكانات الكاملة لبياناتها مع الحفاظ على التحكم الكامل. “
توضح هذه الصفقة مع مزود شركة الاتصالات العربية السعودية كيف تحتاج الحكومات إلى النظر في جميع الخيارات عند بناء قدرة الذكاء الاصطناعي السيادي. أظهر Deepseek أن هناك مناهج بديلة يمكن أن تكون فعالة بنفس القدر من الطريقة التي تم تجربتها واختبارها لنشر المصفوفات الهائلة والمكلفة من وحدات معالجة الرسومات.
وعلى الرغم من أنه يعمل بشكل أفضل بالفعل ، عندما تكون أجهزة الذكاء الاصطناعي المعتاد على GPU ، فإن ما يدعيه سامبانوفا هو أن هناك أيضًا طريقة بديلة لتحقيق نفس الأداء لتشغيل نماذج مثل Deepseek-R1 المحلية ، بدون الذاكرة ، بدون ذاكرة ، بدون ذاكرة ، بدون ذاكرة ، تكاليف الاضطرار إلى الحصول على وحدات معالجة الرسومات المزودة بالذاكرة التي يحتاجها النموذج.