مجلة رواد الأعمال | DeepSeek V3 .. نموذج ذكاء اصطناعي يقلب الموازين ويثير غضب OpenAI

DeepSeek V3 .. نموذج ذكاء اصطناعي يقلب الموازين ويثير غضب OpenAI

مجلة رواد الأعمال 29 ديسمبر 2024 14:01

أصدرت شركة DeepSeek الصينية نموذجًا جديدًا مفتوح المصدر يعرف باسم DeepSeek V3 . الذي يتفوق على النماذج مفتوحة المصدر الرائدة الحالية والنماذج المغلقة، مثل: OpenAI s GPT-4o في العديد من المعايير.

ومع 671 مليار معلمة، يكون نموذج الذكاء الاصطناعي قادرًا على إنشاء نص وترميز وأداء مهام ذات صلة.

كما قد استخدم الفريق مزيجًا من الخبراء أو بنية MoE، التي تتألف من شبكات عصبية متعددة. حيث تم تحسين كل منها لأنواع مختلفة من المهام. تقلل هذه الطريقة من تكاليف الأجهزة؛ لأنه في كل مرة يدخل فيها مطالبة. فإنه ينشط الشبكة العصبية ذات الصلة فقط، وليس نموذج اللغة الكبير بالكامل. تتألف كل شبكة عصبية من 34 مليار معلمة.

نموذج DeepSeek V3

الجدير بالذكر أن DeepSeek قالت: إن تدريب نموذج الذكاء الاصطناعي تم في نحو 2788 ألف ساعة GPU H800 أو ما يقدر بنحو 5.57 مليون دولار . إذا كان سعر الإيجار 2 دولار لكل ساعة GPU. كما أن هذا مبلغ أصغر بكثير من ملايين الدولارات التي تنفقها شركات التكنولوجيا الكبرى في الولايات المتحدة على تدريب LLMs.

كما صرحت الشركة بأن نموذج DeepSeek V3 تجاوز النماذج مفتوحة المصدر بما في ذلك Llama-3.1-405B و Qwen 2.5-72B في معظم المعايير. كذلك تفوق على GPT-4o في معظم المعايير باستثناء SimpleQA. الذي يركز على اللغة الإنجليزية و FRAMES.

بينما كان Claude 3.5 Sonnet من Anthropic هو الوحيد الذي تمكن من التغلب على DeepSeek V3 في معظم المعايير، بما في ذلك MMLU-Pro وIF-Eval و GPQA-Diamond وSWE-Verified وAider-Edit.

مصدر البيانات

لم تكشف DeepSeek الكثير عن مصدر بيانات تدريب DeepSeek V3. ولكن لا يوجد نقص في مجموعات البيانات العامة التي تحتوي على نص أنشئ بواسطة GPT-4 عبر ChatGPT. إذا تدرب DeepSeek V3 على هذه البيانات، فقد يكون النموذج قد حفظ بعض مخرجات GPT-4، ويعيد الآن إنتاجها حرفيًا.

كما قال مايك كوك؛ زميل الأبحاث في King s College London المتخصص بالذكاء الاصطناعي: من الواضح أن النموذج يرى استجابات خام من ChatGPT في مرحلة ما. ولكن ليس من الواضح أين ذلك . قد يكون ذلك عرضيًا، ولكن لسوء الحظ، رأينا حالات لأشخاص يدربون نماذجهم مباشرة على مخرجات نماذج أخرى لمحاولة الاستفادة من معرفتهم .

كذلك أشار كوك إلى أن ممارسة تدريب النماذج على مخرجات من أنظمة الذكاء الاصطناعي المنافسة يمكن أن تكون سيئة للغاية لجودة النموذج. لأنها قد تؤدي إلى الهلوسة والإجابات المضللة. كما لو أخذنا نسخة طبق الأصل من نسخة طبق الأصل، فإننا.....

لقراءة المقال بالكامل، يرجى الضغط على زر "إقرأ على الموقع الرسمي" أدناه