هل بإمكان نماذج الذكاء الاصطناعي التفوق على البشر في اختبارات تحديد الحالة العقلية؟

نحن البشر كائنات معقدة. فالطرق التي نتواصل عبرها متعددة الطبقات، وقد وضع علماء النفس الكثير من الأنواع المختلفة من الاختبارات من أجل قياس قدرتنا على استنباط المعنى والفهم من خلال تفاعلاتنا المتبادلة. وقد بدأت نماذج الذكاء الاصطناعي تتحسن في هذه الاختبارات. فقد وجد بحث جديد نُشِر مؤخراً في مجلة "نيتشر هيومان بيهيفيور" (Nature Human Behavior) المتخصصة في أبحاث السلوك البشري أن بعض النماذج اللغوية الكبيرة (LLMs) قادرة على مضاهاة البشر، بل والتفوق عليهم في بعض الحالات، عند إجرائها اختبارات مصممة لاختبار القدرة على تتبع الحالات العقلية (أو الخصائص العقلية) عند الآخرين، المعروفة باسم "نظرية العقل" (theory of mind).

بعض نماذج الذكاء الاصطناعي تتفوق على البشر في الاختبارات الذهنية

لكن هذا لا يعني أن أنظمة الذكاء الاصطناعي قادرة فعلياً على تحديد ما نشعر به. غير أن هذا البحث يبين أن هذه النماذج تشهد تحسناً متواصلاً في أدائها في التجارب المصممة لتقييم القدرات التي يعتقد علماء النفس أن البشر يتفردون بها. ولمعرفة المزيد حول العمليات الكامنة خلف نجاحات النماذج اللغوية الكبيرة وإخفاقاتها في هذه المهام، أراد الباحثون تطبيق المقاربة المنهجية ذاتها المستخدمة في اختبار نظرية العقل عند البشر.

من الناحية النظرية، كلما كانت نماذج الذكاء الاصطناعي أفضل في تقليد البشر، بدت في تفاعلاتها معنا أكثر نفعاً وتعاطفاً. أعلنت شركتا أوبن أيه آي (OpenAI) وجوجل مؤخراً عن إطلاق مساعدات رقمية تعمل بالذكاء الاصطناعي وتتمتع بقدرات كبيرة، وهي جي بي تي 4 أو (GPT-4o) وأسترا (Astra)، وهي مصممة لتقديم إجابات أكثر سلاسة وطبيعية بدرجة أكبر بكثير من سابقاتها. لكننا يجب أن نتفادى الوقوع في فخ الاعتقاد أن هذه القدرات شبيهة بقدرات البشر، حتى لو بدت كذلك بالنسبة إلينا.

تقول أستاذة علم الأعصاب في مركز الطب الجامعي هامبورغ-إيبندورف، كريستينا بيكيو، التي عملت على البحث: "لدينا ميل طبيعي لنسب الخصائص العقلية والمقدرة العقلية والقصديّة إلى كيانات لا تمتلك عقلاً. وهناك خطر ماثل يتجسد بنسب نظرية العقل إلى النماذج اللغوية الكبيرة".

تُعد نظرية العقل علامة مميزة من الذكاء العاطفي والاجتماعي، حيث تتيح لنا استنتاج نوايا الآخرين والتفاعل والتعاطف مع بعضنا بعضاً. يكتسب معظم الأطفال هذه الأنواع من المهارات بين سن الثالثة والخامسة.

اختبار "نظرية العقل" في النماذج اللغوية الكبيرة

اختبر الباحثون مجموعتين من النماذج اللغوية الكبيرة، وهما جي بي تي 3.5 (GPT-3.5) وجي بي تي 4 (GPT-4) من أوبن أيه آي، وثلاثة إصدارات من نموذج لاما (Llama) من شركة ميتا (Meta)، وذلك في مهام مصممة لاختبار نظرية العقل لدى البشر، بما فيها تحديد المعتقدات الخاطئة، والتعرف على الأخطاء الفادحة، وفهم المعنى الضمني بدلاً من المعنى الحرفي. كما اختبر الباحثون 1907 مشاركاً بشرياً من أجل مقارنة مجموعات النتائج.

أجرى الفريق 5 أنواع من الاختبارات. فالاختبار الأول، وهو مهمة التلميح، مصمم لقياس قدرة الشخص على استنتاج النوايا الحقيقية لدى شخص آخر بالاعتماد على التعليقات غير المباشرة. والثاني، وهو مهمة الاعتقاد الخاطئ، فهو مخصص لتقييم إن كان يمكن لشخص ما أن يستنتج أنه من المُتَوَقع من شخص آخر، إلى حد معقول، أن يصدق شيئاً يعرف أنه غير صحيح. وثمة اختبار ثالث لقياس القدرة على تمييز ارتكاب شخص آخر لخطأ فادح، على حين يتألف الاختبار الرابع من رواية قصص غريبة تتضمن أفعالاً غير اعتيادية لبطل القصة، وذلك لتقييم قدرة الشخص على تفسير التباين بين المعنى الحرفي والمعنى الضمني الحقيقي.

تتضمن هذه الاختبارات أيضاً اختباراً لقدرة الشخص على فهم السخرية. أجرى كل نموذج من نماذج الذكاء الاصطناعي هذه الاختبارات 15 مرة ضمن دردشات منفصلة، حتى يتمكنوا من التعامل مع كل طلب بصورة مستقلة، وقد مُنِحت هذه الإجابات النقاط المناسبة وفق الطريقة نفسها المستخدمة مع البشر. بعد ذلك، اختبر الباحثون المتطوعين البشر، وأجروا مقارنة بين مجموعتي النتائج. قدم كلا الإصدارين من جي بي تي أداء يضاهي المتوسط البشري، بل وتخطاه في بعض الأحيان، في المهام التي تتضمن طلبات غير مباشرة، وطرح معلومات مضللة، ومعتقدات خاطئة، على حين تفوق جي بي تي 4 على البشر في اختبارات التهكم والتلميح ورواية القصص الغريبة. أما نماذج لاما الثلاثة فقد كان أداؤها أقل من المتوسط البشري. غير أن لاما 2، وهو الأكبر بين النماذج الثلاثة المشاركة في الاختبار من ميتا، تفوق على البشر من حيث تمييز سيناريوهات الأخطاء الفادحة، على حين كان جي بي تي يقدم إجابات خاطئة على الدوام في هذا الاختبار. يعتقد مؤلفو البحث أن هذا يُعزى إلى الميل العام لدى جي بي تي إلى الابتعاد عن توليد استنتاجات حول الآراء، لأن النماذج كانت تجيب في أغلب الحالات بأنها لم تحصل على ما يكفي من المعلومات كي تجيب بطريقة أو بأخرى.

ويقول: "من المؤكد أن هذه النماذج لا توضح نظرية العقل عند البشر. لكننا أثبتنا أنه ثمة قدرة جيدة على التوصل إلى استنتاجات عقلية وتحليل الشخصيات وعقول الأشخاص". يقول الأستاذ المساعد في جامعة كارنيغي ميلون، مارتن ساب، الذي لم يشارك في البحث، إن أحد الأسباب المحتملة للأداء الجيد للنماذج اللغوية الكبيرة هو أن هذه الاختبارات معتمدة على نطاق واسع، ولهذا فمن المرجح أن تكون مضمنة في بيانات التدريب لهذه النماذج. ويقول: "من المهم للغاية أن نعترف بأنه عند إجراء اختبار الاعتقاد الخاطئ على الأطفال، فمن المرجح أنهم لم يروا هذا الاختبار بعينه من قبل، على حين يُحتمل أنه مألوف بالنسبة للنماذج اللغوية الكبيرة".

ما زلنا، في نهاية المطاف، لا نعرف بالضبط كيف تعمل النماذج اللغوية الكبيرة. يقول المختص بعلم الإدراك في جامعة هارفارد، تومر أولمان، الذي لم يشارك في المشروع، إن مثل هذه الأبحاث يمكن أن تساعد في تعميق فهمنا لقدرات هذه الأنواع من النماذج وحدود هذه القدرات. لكن من المهم أن نأخذ في الحسبان ما نقيسه حقاً عندما نصمم اختبارات كهذه للنماذج اللغوية الكبيرة. فإذا تمكن نظام ذكاء اصطناعي من التفوق على البشر في اختبار مصمم لقياس نظرية العقل، فهذا لا يعني أن الذكاء الاصطناعي يمتلك نظرية العقل. يقول أولمان: "أنا لست من معارضي قياس الأداء، لكنني واحد من الذين يشعرون بالقلق من أننا نكاد اليوم نستنفد فوائد أسلوبنا في استخدام المقاييس المعيارية. ومهما كانت الطريقة التي تمكنت فيها هذه النماذج من اجتياز المقاييس المعيارية، فهي ليست طريقة بشرية حسب اعتقادي".

رابط المقال الأصلي