يتفوق الذكاء الاصطناعي حرفيًا في بعض المهام مثل البرمجة أو توليد البودكاست، لكنه يعجز عن اجتياز امتحانات تاريخية متقدمة، وفقًا لدراسة جديدة.
Dubai Dunes in one Minute
% Buffered
00:00 / 00:00
ابتكر فريق من الباحثين مقياسًا جديدًا لاختبار ثلاثة من أفضل النماذج اللغوية الكبيرة (LLMs) GPT-4 من أوبن آيه آي، وLlama من ميتا، وGemini من جوجل في أسئلة تاريخية، وفق مقياس يُسمى Hist-LLM ، يختبر صحة الإجابات وفقًا لقاعدة بيانات Seshat Global History Databank ، وهي قاعدة بيانات شاملة للمعرفة التاريخية سُميت على اسم الإلهة المصرية القديمة للحكمة.
عرض الباحثون النتائج في مؤتمر NeurIPS للتعلم الآلي الشهر الماضي، وأشاروا إلى أنها كانت محبطة. إذ كان أفضل أداء من نصيب GPT-4 Turbo، لكنه حقق دقة لا تتجاوز 46%، وهي نسبة قريبة من التوقعات العشوائية.
وقالت ماريا ديل ريو-تشانونا، إحدى مؤلفي الدراسة وأستاذة مساعدة في علوم الكمبيوتر بجامعة لندن: الدرس الأساسي من هذه الدراسة هو أن النماذج اللغوية الكبيرة، رغم كونها مثيرة للإعجاب، إلا أنها تفتقر إلى عمق الفهم المطلوب في التاريخ المتقدم. هي ممتازة في الحقائق الأساسية، لكن عندما يتعلق الأمر بالاستفسارات التاريخية الدقيقة على مستوى الدكتوراه، فإنها ليست قادرة على أداء المهمة بعد .
الباحثون شاركوا بعض الأسئلة التاريخية التي أخطأت فيها النماذج اللغوية مع موقع TechCrunch . فعلى سبيل المثال، سُئل GPT-4 Turbo ما إذا كانت الدروع المقياس موجودة في فترة زمنية معينة في مصر القديمة، فأجاب نعم ، في حين أن التكنولوجيا ظهرت في مصر بعد 1500 سنة من ذلك.
لكن لماذا تعجز النماذج اللغوية الكبيرة عن الإجابة على الأسئلة التاريخية الدقيقة، في حين أنها قد تكون.....
لقراءة المقال بالكامل، يرجى الضغط على زر "إقرأ على الموقع الرسمي" أدناه
هذا المحتوى مقدم من صحيفة الوئام