تشير التحديثات المتسارعة في مجال الذكاء الاصطناعي إلى تغيّر موازين القوة بين أنظمة مثل ChatGPT وGemini وGoogle، حيث يعمد الخبراء إلى الاعتماد على اختبارات معيارية تقيس التفكير المنطقي وحل المشكلات والاستدلال. تؤكد هذه الاختبارات وجود تفوق واضح لـChatGPT في ثلاث مجالات رئيسية مقارنة بـGemini. وتوضح أن الوصول إلى رُقم محددة قد يتغير خلال أيام مع إصدار تحديثات جديدة. يعتمد التحليل على النسخ المدفوعة من النظامين ويُفضل الاختبار المعياري على التجارب الشخصية.
الإجابة عن الأسئلة العلمية المعقدة أحد أهم المعايير هو GPQA Diamond المصمم لقياس التفكير على مستوى الدكتوراه في الفيزياء والكيمياء والأحياء. وتُصنف هذه الأسئلة بأنها محظورة على البحث المباشر، حيث تتطلب ربط مفاهيم علمية وتجنب الاستنتاجات السطحية. في هذه النتائج، سجلت ChatGPT-5.2 نسبة 92.4% متفوقة بفارق طفيف على Gemini 3 Pro الذي حقق 91.9%. وللمقارنة، يبلغ متوسط نتائج خريجي الدكتوراه نحو 65% بينما لا يتجاوز غير المتخصصين 34%.
حل مشكلات البرمجة الواقعية في مجال البرمجة، يُعد SWE-Bench Pro من أصعب المعايير لأنه يعتمد على مشكلات حقيقية مأخوذة من منصات GitHub، وتطرح شيفرات معقدة وتقرير أعطال واقعية. أظهرت النتائج أن ChatGPT-5.2 تمكن من حل نحو 24% من هذه المشكلات، مقابل 18% لـGemini، ورغم أن هذه النسب تبدو منخفضة فإن.....
لقراءة المقال بالكامل، يرجى الضغط على زر "إقرأ على الموقع الرسمي" أدناه
هذا المحتوى مقدم من الإمارات نيوز
