أعلن تقرير صادر عن جهة مختصة أن نماذج الذكاء الاصطناعي لا تخلو من العيوب، وتستخدم أنماطاً لغوية لتوقع الكلمة التالية، وهو ما قد يؤدي أحياناً إلى هلوسة اصطناعية. ويستلزم الأمر تدخلًا بشريًا للتحقق من البيانات كالأسماء والتواريخ والأسعار. ولا يُلام النموذج نفسه على الأخطاء؛ فهو يعمل وفق ما بُرمِج عليه حتى لو كانت البيانات غير متوفرة للإجابة. أجريت دراسة بواسطة Legal Guardian Digital لقياس دقة روبوتات المحادثة باستخدام مؤشرات مثل معدل الخطأ ورضا المستخدم وتوافر الخدمة، ثم حُوِّلت النتائج إلى مؤشر من 0 إلى 100.
مقاييس الخطأ وأداء الروبوتات
أعلن التقييم أن روبوت جوجل Gemini جاء في أعلى معدل الخطأ من بين الأنظمة المدروسة، حيث بلغ معدل الأخطاء نحو 32% من الردود. وتشير النتائج إلى أن آبل تدفع لجوجل ما لا يقل عن مليار دولار سنوياً لتشغيل نموذج Gemini المخصص المستخدم في Siri. أما روبوت الدردشة ChatGPT فكان في المركز الثاني من حيث احتمالية الرد الخاطئ، حيث تخطئ نحو ثلاثة من كل عشرة ردود. أما روبوت Perplexity AI فكان الأقل احتمالاً للخطأ، إذ بلغت نسبة الإجابات الخاطئة 13% فقط، ثم جاء DeepSeek الصيني وGrok المملوك لإيلون ماسك بمعدلات 14% و15% على التوالي، مع الإشارة إلى أن تدريب DeepSeek تم بتكلفة أقل مقارنة بتدريب ChatGPT.
هذا المحتوى مقدم من مجلة صوت المرأة العربية
