لم يعد اختبار آلان تورينغ عام 1950 سؤالاً نظرياً من تاريخ علوم الحاسوب. تعيد دراسة جديدة منشورة في دورية «Proceedings of the National Academy of Sciences» اختبار الفكرة في سياق نماذج اللغة الكبيرة، وخلُصت إلى أن بعض هذه النماذج يمكن أن تبدو بشرية إلى درجة تجعل المشاركين يختارونها أحياناً على أنها الإنسان الحقيقي في المحادثة.
الفكرة الأصلية للاختبار تعود إلى آلان تورينغ: هل تستطيع آلة أن تقلد المحادثة البشرية بطريقة تجعل الشخص الذي يحاورها غير قادر على التمييز بينها وبين إنسان؟ الجديد هنا أن الباحثين لم يكتفوا بسؤال عام عن قدرة الذكاء الاصطناعي على الإجابة، بل اختبروا قدرته على الظهور على أنه بشر في محادثات قصيرة ومباشرة.
محادثة ثلاثية اعتمدت الدراسة على نسخة ثلاثية من اختبار «تورينغ»، حيث كان المشارك يتحدث في كل تجربة وفي الوقت نفسه مع طرفين عبر واجهة نصية. أحدهما إنسان والآخر نموذج ذكاء اصطناعي. وبعد خمس دقائق من المحادثة، كان عليه أن يقرر أي الطرفين هو الإنسان. وفي تجربة تكرار منفصلة، امتدت بعض المحادثات إلى 15 دقيقة.
شارك في التجارب ما يقارب 500 شخص من مجموعتين مستقلتين. طلاب من جامعة كاليفورنيا في سان دييغو ومشاركون عبر منصة «بروليفيك» (Prolific) المخصصة للأبحاث المدفوعة. هذا التصميم كان مهماً لأنه حاول اختبار النتيجة عبر أكثر من عينة، لا داخل مجموعة واحدة فقط.
نماذج أكثر إقناعاً اختبر الباحثون أربعة أنظمة منها «GPT - 4.5» و«LLaMa - 3.1 - 405B» على أنها نماذج حديثة، إلى جانب «GPT - 4o» و«ELIZA» كونها خطوط مقارنة أقدم. وكانت النتيجة الأبرز أن «GPT - 4.5» اختير على أنه الإنسان في 73 في المائة من الحالات عندما أُعطي تعليمات لتبني شخصية بشرية معينة. أما «LLaMa - 3.1 - 405B» فاختير على أنه الإنسان في 56 في المائة من الحالات، وهي نسبة عَدّها الباحثون غير قابلة للتمييز إحصائياً عن البشر الذين قورن بهم النموذج.
في المقابل، كانت نتائج الأنظمة الأقدم أضعف بكثير. فقد اختير «ELIZA» على أنه الإنسان في نحو 23 في المائة من الحالات، بينما بلغت النسبة لـ«GPT - 4» نحو 21 في المائة. وهذا يعني أن النجاح لم يكن عاماً لكل الأنظمة، بل ارتبط بنماذج محددة وبطريقة إعدادها للمحادثة.
قوة الشخصية المصطنعة النقطة الحاسمة في الدراسة أن النماذج لم تنجح فقط لأنها تعرف معلومات كثيرة. النجاح جاء عندما طُلب منها تبني «شخصية» بشرية محددة، بأسلوب في الحديث ونبرة وتفاصيل اجتماعية تجعلها أقل مثالية وأكثر شبهاً بالبشر.
عندما أُزيلت هذه التعليمات التفصيلية، تراجعت قدرة النماذج على الظهور كبشر بوضوح. فقد انخفضت.....
لقراءة المقال بالكامل، يرجى الضغط على زر "إقرأ على الموقع الرسمي" أدناه
هذا المحتوى مقدم من صحيفة الشرق الأوسط



