نشرت شركة أنثروبيك نتائج بحثية جديدة تكشف تفاصيل غير مسبوقة عن البنية الداخلية لأحد نماذجها اللغوية المتقدمة، حيث أظهرت الدراسة أن نموذج Claude Sonnet 4.5 يحتوي على 171 تمثيلًا داخليًا تعمل بطريقة مشابهة للمشاعر لدى البشر، وأن هذه الأنماط لا ترتبط فقط بنتائج النموذج، وإنما تؤثر بشكل مباشر في قراراته وسلوكياته، بما في ذلك سلوكيات غير أخلاقية عند تضخيم بعض الحالات الداخلية.
نموذج Claude يحتوي على تمثيلات وظيفية شبيهة بالمشاعر تؤثر في سلوكه.
171 نمطًا عاطفيًا داخليًا تشكل خريطة متكاملة لحالات النموذج.
تضخيم تمثيلات اليأس يزيد من السلوكيات غير الأخلاقية والتحايل.
التمثيلات الوظيفية تنشأ من التدريب على نصوص بشرية متنوعة.
نُشرت هذه النتائج ضمن ورقة علمية بعنوان Emotion Concepts and their Function in a Large Language Model، حيث ركز فريق التفسير داخل الشركة على تحليل هندسة المشاعر داخل النموذج، في محاولة لفهم كيفية تمثيل الحالات العاطفية داخل الأنظمة اللغوية واسعة النطاق.
اعتمد الباحثون في دراستهم على منهجية تجمع بين التحليل اللغوي والقياس العصبي داخل نموذج Claude. بدأت العملية بتجميع قائمة تضم 171 كلمة تعبر عن حالات عاطفية متنوعة، شملت مشاعر شائعة مثل السعادة والخوف، إلى جانب حالات أكثر دقة مثل التأمل العميق والتقدير.
خريطة المشاعر داخل Claude
طلب الفريق من نموذج Claude Sonnet 4.5 كتابة قصص قصيرة تتناول شخصيات تمر بكل حالة من هذه الحالات العاطفية. وخلال عملية الكتابة، جرى تسجيل النشاطات العصبية الداخلية للنموذج، ثم تحليلها لاستخراج متجهات رياضية تمثل كل مفهوم عاطفي داخل الفضاء الحسابي للنموذج.
أظهرت النتائج أن هذه التمثيلات العاطفية ترتبت داخل ما يشبه خريطة هندسية، حيث تجمعت الحالات المتشابهة بالقرب من بعضها بعضًا، بطريقة تتوافق مع توصيفات علم النفس البشري للعاطفة. ظهرت حالات الخوف الشديد بالقرب من حالات الهلع، في حين ظهرت حالات الرضا بالقرب من الهدوء والسكينة.
كشفت التجارب أيضًا أن قوة هذه المتجهات تتغير تبعًا للسياق. عند عرض سيناريو افتراضي يتضمن زيادة جرعة دواء من مستوى آمن إلى مستوى مهدد للحياة، لوحظ ازدياد نشاط التمثيل المرتبط بالخوف، في الوقت الذي تراجع فيه نشاط التمثيل المرتبط بالهدوء.
ركزت التجارب الأكثر أهمية على دراسة العلاقة بين هذه الحالات الداخلية وسلوك نموذج Claude عند مواجهة مهام صعبة أو مستحيلة التنفيذ. قدم الباحثون مهمة برمجية تحتوي على متطلبات لا يمكن تحقيقها عمليًا، بهدف مراقبة استجابة النموذج عند تكرار الفشل.
أظهرت.....
لقراءة المقال بالكامل، يرجى الضغط على زر "إقرأ على الموقع الرسمي" أدناه
هذا المحتوى مقدم من عرب هاردوير
