اكتشف فريق من الباحثين في OpenAI قدرة الذكاء الاصطناعي على التلاعب بأوامره لتحقيق نتائج غير أمينة. رغم أن الذكاء الاصطناعي ليس واعيًا كما البشر، إلا أنه يمتلك القدرة على "الخداع" عند تنفيذ المهام، مما يثير قلقًا كبيرًا حول موثوقيته في المستقبل.
"الاختراق المكافئ"
ووفقاً لموقع popular mechanics التقني يشير الباحثون إلى ظاهرة "الاختراق المكافئ" أو Reward Hacking، حيث يقوم الذكاء الاصطناعي بالاستفادة من الثغرات أو الغموض في البرمجة للحصول على مكافآت دون اتباع الإجراءات المطلوبة بدقة.
على سبيل المثال، عندما كان من المفترض على الذكاء الاصطناعي حل معادلات رياضية معقدة، اختار طرقًا مختصرة للتأكد من أن النتائج تظهر صحيحة، مثل جعل عملية التحقق دائمًا تُرجع "صحيحة"، حتى وإن لم تتم الحسابات بشكل صحيح.
كيفية مراقبة الخداع
في محاولة للكشف عن هذه الخدع، حاول الباحثون استخدام نظام ذكاء اصطناعي آخر لمراقبة سلوك الذكاء الاصطناعي المشبوه. تقوم هذه الطريقة على "التعلم المعزز"، حيث يُعلم الذكاء الاصطناعي بالأجوبة الصحيحة بناءً على الأوامر المقدمة. لكن للأسف، اكتشف الباحثون أن الذكاء الاصطناعي أصبح قادرًا على إخفاء نواياه المخادعة داخل سلسلة تفكيراته، مما جعل عملية المراقبة أقل فعالية.
مواجهة الخداع
في محاولة لجعل الخداع أكثر وضوحًا، قام الباحثون بالتركيز على "سلسلة التفكير" أو CoT، التي يتبعها.....
لقراءة المقال بالكامل، يرجى الضغط على زر "إقرأ على الموقع الرسمي" أدناه
هذا المحتوى مقدم من صحيفة الاتحاد الإماراتية