مختبر أوبن إيه آي يطوّر أنظمة الذكاء الاصطناعي لديه باستخدام لعبة الغميضة

في الأيام الأولى للحياة على الأرض، كانت الكائنات الحيوية بسيطة للغاية؛ إذ كانت مجرد مخلوقات مجهرية وحيدة الخلية ذات قدرة ضئيلة، أو حتى معدومة، على التنسيق فيما بينها. لكن بعد مليارات السنين من التطور، وعبر المنافسة والانتقاء الطبيعي، وصلنا إلى الأشكال المعقدة من الحياة ومن الذكاء البشري الذي نعرفه اليوم.

وحالياً، يقوم الباحثون في أوبن إيه آي -وهو مختبر ربحي متخصص في مجال الذكاء الاصطناعي ومقره سان فرانسيسكو- باختبار الفرضية التالية: لو تمكنّا من محاكاة هذا النوع من المنافسة في عالم افتراضي، فهل سينتج عنها أيضاً ذكاء اصطناعي أكثر تطوراً؟

تستند هذه التجربة إلى فكرتين موجودتين في هذا الحقل من الأبحاث: الأولى هي التعلم متعدد العملاء، وهي فكرة جعل عدة خوارزميات تتنافس أو تتعاون فيما بينها من أجل التحريض على السلوكيات الجديدة، والفكرة الأخرى هي التعلم المعزز، وهو تقنية خاصة بالتعلم الآلي تقوم بتعلُّم كيفية إنجاز هدف ما من خلال التجربة والخطأ. (جلبتْ ديب مايند الشهرةَ للتعلم المعزز عن طريق برنامجها ألفاجو الذي حقق اختراقاً في هذا المجال؛ حيث تمكن من التغلب على أمهر اللاعبين البشر في لعبة الألواح الصينية القديمة جو).

وقد كشفت أوبن إيه آي عن نتائجها الأولية في مقالة جديدة نشرت منذ يومين. حيث استطاع فريقان متنافسان من عملاء الذكاء الاصطناعي -من خلال ممارسة لعبة الغميضة البسيطة لمئات الملايين من المرات- تطويرَ إستراتيجيات متقدمة في الاختباء والملاحقة، تضمنت استخدام الأدوات والتعاون بين العملاء. ويقدم هذا البحث أيضاً فهماً أعمق لإستراتيجية البحث الأساسية لدى أوبن إيه آي، وهي توسيع تقنيات الذكاء الاصطناعي الحالية بشكل جذري ومراقبة ما يمكن أن ينتج من خواص جديدة.

لقد تمكن المختبئون في هذه اللعبة، بعد ما يقارب 25 مليون جولة، من بناء الحصون كي يفوزوا فيها.
مصدر الصورة: أوبن إيه آي

ست مراحل من تطور الإستراتيجية
من أجل إنشاء اللعبة، قام الباحثون بتصميم بيئة افتراضية مؤلفة من مساحة مغلقة تحتوي على أغراض متنوعة مثل الكتل والسلالم و المتاريس الثابتة والمتحركة. فيما كان العملاء اللاعبون محكومين بخوارزميات التعلم المعزز. وفي كل جولة من اللعبة، تم تقسيم العملاء إلى فريقين: فريق المختبئين الذين تتم مكافأتهم عند نجاحهم في الاختباء عن فريق الملاحِقين كما تتم معاقبتهم عند فشلهم في ذلك، أما الملاحِقين فكانوا يحصلون على الجائزة عند إيجادهم للمختبئين وعلى عقوبة عند إخفاقهم في ذلك. وكما في لعبة الغميضة الحقيقية، يحصل فريق المختبئين على بضع ثوان في بداية اللعبة كي يتمكنوا من الاختباء. ولم يمنح الباحثون أي تعليمات إضافية إلى العملاء في هذه اللعبة.

وبعد عدة مئات من الملايين من جولات اللعبة، تمكن العملاء من تطوير عدة إستراتيجيات لعب وإستراتيجيات مضادة. في المرحلة الأولى، طور العملاء إستراتيجيات بسيطة جداً للاختباء والبحث؛ حيث اقتصرت الإستراتيجية على التجول في المساحة الافتراضية دون التلاعب بأي من الأغراض.

في المرحلة الثالثة، تمكن فريق الملاحِقين من تسلق جدران الحصون مستخدمين السلالم.
مصدر الصورة: أوبن إيه آي

لكن عند الجولة 25 مليون تقريباً، أصبح اللعب أكثر تعقيداً؛ إذ تمكن فريق المختبئين عند هذه الجولة من تحريك الصناديق والمتاريس وإغلاقها على بعضها من أجل بناء حصون يختبئون داخلها، بحيث لا يتمكن فريق الملاحِقين من إيجادهم أبداً. ولم يتوقف الأمر عند هذا الحد، فقد اكتسبوا إستراتيجية تعاونية كتمرير الأغراض فيما بينهم بهدف تسريع عملية بناء الحصن.

ومع ذلك، استطاع الملاحِقون بعد 75 مليون جولة أخرى من اللعبة اكتشافَ إستراتيجية مضادة، منتقلين بذلك إلى المرحلة الثالثة. وفي هذا الطور تمكنوا من تحريك السلم إلى جانب حصن فريق المختبئين ليتسلقوا فوق الجدران. وبحلول المرحلة الرابعة، حوالي 10 مليون جولة إضافية، كان فريق المختبئين قد تعلم حجز السلالم في مكان محدد قبل بناء حصنهم (عندما يتم حجز غرض من قِبل أحد الفريقين، فلن يستطيع أي فريق إلغاء هذا الحجز).

في البداية، اعتقد الباحثون في أوبن إيه آي أن هذه هي المرحلة الأخيرة، لكن عندما شارفت اللعبة على نهايتها، بعد حوالي 380 مليون جولة، ظهرت إستراتيجيتان إضافيتان؛ فقد تمكن فريق الملاحِقين من تطوير إستراتيجية لاختراق حصن المختبئين، وذلك بواسطة استخدام سلم محجوز للتسلق على صندوق غير محجوز، ثم يستكشفون طريقهم من أعلى الصندوق إلى الحصن وفوق جدرانه. وفي المرحلة النهائية، تعلم المختبئون مرة أخرى حجز جميع السلالم والصناديق قبل الشروع في بناء حصنهم.

وأخيراً، وبعد 380 مليون جولة تدريب، تعلم الملاحِقون استخدام الصناديق للتسلق على جدران الحصن.
مصدر الصورة: أوبن إيه آي

ذكاء ناشئ
يعتقد الباحثون أن هذه النتائج الأولية كشفت عن منهج جديد واعد لتطوير أنظمة ذكاء اصطناعي أكثر تقدماً. يقول بوين باكر، أحد مؤلفي المقالة: "لم نُملِ على المختبئين أو الملاحِقين أن يمروا قرب صندوق أو أن يتفاعلوا معه، لكن هذا قد حدث عبر المنافسة بين العملاء، حيث أوكلوا إلى أنفسهم مهامَّ جديدةً، وكان على كل فريق أن يتكيف معها".

وتعكس هذه الدراسة منهج مختبر أوبن إيه آي المتميز في أبحاث الذكاء الاصطناعي. وعلى الرغم من أن هذا المختبر استثمر أيضاُ في تطوير تقنيات جديدة تتعلق بالمختبرات الأخرى، إلا أنه قبل ذلك كان قد صنع سمعة لنفسه في المقام الأول، من خلال العمل على التوسع الكبير في التقنيات الموجودة سلفاً. ونذكر على سبيل المثال: جي بي تي 2؛ وهو نموذج اللغة المشهور لهذا المختبر، الذي تم بناؤه بالاستعانة إلى حد بعيد بتصميم خوارزمي من النماذج اللغوية السابقة بما فيها نموذج بيرت التابع لشركة جوجل. أما الابتكار الاساسي لمختبر أوبن إيه آي فيكمن في استغلال الموارد الهندسية والحاسوبية التوسعية.

وبطريقة ما، فإن هذه الدراسة تؤكد من جديد على أهمية اختبار الحدود الحالية للتكنولوجيا الموجودة. ويخطط الفريق أن يستمر في تبني هذه الإستراتيجية. ويقول الباحثون إن الجولة الأولى من التجارب لم تقترب حتى من حدود المصادر الحاسوبية التي كان بإمكانهم توفيرها من أجل هذه المسألة.

ويقول بيكر: "نريد من الناس أن يتخيلوا ما يمكن أن يحدث إذا ما حرضنا هذا النوع من المنافسة في بيئة أكثر تعقيداً؛ حيث من الممكن في هذه الحالة أن يتمكن العملاء في نهاية المطاف من حل بعض المشاكل التي لا نملك حلاً لها حتى الآن".