رغم تفوقه في البرمجة.. نماذج الذكاء الاصطناعي تخفق في التاريخ

على الرغم من تميز الذكاء الاصطناعي في بعض المهام مثل البرمجة أو إنشاء البودكاست، إلا أنه يُظهر ضعفًا واضحًا في اجتياز اختبارات التاريخ المتقدمة، وفقًا لدراسة حديثة.

GPT-4 وLlama وGemini: نماذج لغوية فشلت في تقديم إجابات دقيقة

قام فريق من الباحثين بتطوير معيار جديد لاختبار ثلاث نماذج لغوية ضخمة رائدة: "GPT-4" من أوبن إي آي، و"Llama" من ميتا، و"Gemini" من جوجل، في الإجابة عن أسئلة تاريخية. يعتمد هذا المعيار، المعروف باسم "Hist-LLM"، على قاعدة بيانات التاريخ العالمي "Seshat"، وهي قاعدة بيانات شاملة للمعرفة التاريخية.

النتائج التي تم تقديمها الشهر الماضي في مؤتمر "NeurIPS" المرموق، كانت مخيبة للآمال. حيث حقق أفضل نموذج، وهو "GPT-4 Turbo"، دقة بلغت حوالي 46% فقط، وهي نسبة بالكاد تفوق التخمين العشوائي.

..

وأوضحت "ماريا ديل ريو-تشانونا"، إحدى المشاركات في الدراسة وأستاذة علوم الحاسوب في جامعة كوليدج لندن: "الاستنتاج الأساسي من هذه الدراسة هو أن النماذج اللغوية الكبيرة، رغم إمكانياتها المذهلة، لا تزال تفتقر إلى الفهم العميق المطلوب للتعامل مع استفسارات تاريخية متقدمة. يمكنها التعامل مع الحقائق الأساسية، ولكن عندما يتعلق الأمر بالتحليل العميق على مستوى الدكتوراه، فهي غير قادرة على.....

لقراءة المقال بالكامل، يرجى الضغط على زر "إقرأ على الموقع الرسمي" أدناه


هذا المحتوى مقدم من صحيفة الاتحاد الإماراتية

إقرأ على الموقع الرسمي


المزيد من صحيفة الاتحاد الإماراتية

منذ 7 ساعات
منذ ساعتين
منذ ساعتين
منذ ساعتين
منذ 5 ساعات
منذ 10 ساعات
صحيفة الخليج الإماراتية منذ 7 ساعات
صحيفة الخليج الإماراتية منذ 7 ساعات
صحيفة الخليج الإماراتية منذ 6 ساعات
صحيفة الخليج الإماراتية منذ 40 دقيقة
موقع 24 الإخباري منذ 4 ساعات
صحيفة الخليج الإماراتية منذ 8 ساعات
صحيفة الخليج الإماراتية منذ 6 ساعات
خدمة مصدر الإخبارية منذ ساعة