برنامج ذكاء اصطناعي يستطيع ممارسة ألعاب الكمبيوتر بالتعلم من البشر

مصدر الصورة: كوفي ستين ستوديوز

استمع الى المقالة الآن هذه الخدمة تجريبية

طيري أيتها العنزة، طيري! يستطيع برنامج ذكاء اصطناعي جديد من جوجل ديب مايند (Google DeepMind) ممارسة ألعاب مختلفة؛ بما فيها بعض الألعاب الجديدة بالنسبة له مثل لعبة غوت سيميوليتر 3 (Goat Simulator 3)؛ وهي لعبة حركة ممتعة تعتمد على المبالغة في بعض الخصائص الفيزيائية. تمكن الباحثون من دفع البرنامج إلى لعب سبع ألعاب مختلفة، والتحرك في 3 بيئات بحثية مختلفة ثلاثية الأبعاد، وذلك من خلال اتباع الأوامر النصية. يمثل هذا العمل خطوة إلى الأمام نحو بناء نظام ذكاء اصطناعي أقرب إلى الذكاء الاصطناعي العام، بحيث يستطيع نقل مهاراته عبر بيئات مختلفة.

خطوة إلى الأمام نحو بناء الذكاء الاصطناعي العام

حققت جوجل ديب مايند نجاحاً هائلاً في تطوير أنظمة الذكاء الاصطناعي التي تمارس الألعاب. فقد تمكن نظامها ألفاغو (AlphaGo) من التغلب على أبرع اللاعبين المحترفين، لي سيدول، في لعبة غو (Go) في 2016، وقد مثل علامة فارقة أظهرت قدرات التعلم العميق. لكن، وعلى عكس أنظمة الذكاء الاصطناعي السابقة التي تمارس الألعاب؛ والتي تمكنت من إتقان لعبة واحدة فقط أو اتباع أمر واحد أو تحقيق هدف واحد، فقد تمكن هذا البرنامج الجديد من لعب عدة ألعاب مختلفة؛ بما فيها فالهايم (Valheim) ونو مانز سكاي (No Man’s Sky). أطلق الباحثون على هذا النظام اسم “سيما” (SIMA)؛ وهو اختصار بالإنجليزية لعبارة “برنامج قابل للتوسيع وقابل للتوجيه ومتعدد العوالم” (scalable, instructable, multiworld agent).

تمثل الألعاب بديلاً جيداً لمهام العالم الحقيقي في تدريب أنظمة الذكاء الاصطناعي. يقول الأستاذ المساعد المختص بعلم الحاسوب في جامعة ستانفورد، مايكل بيرنستاين، الذي لم يشارك في البحث: “من ناحية المبدأ، يمكن لوكيل برمجي عام مخصص لممارسة الألعاب أن يتعلم كيفية التعامل مع عالمنا أكثر من أي شيء مخصص لبيئة واحدة”.

يقول المهندس الباحث في جوجل ديب مايند وأحد أفراد الفريق الذي طور البرنامج، تيم هارلي: “من الممكن أن نتخيل يوماً ما وجود برامج مثل سيما تلعب معك ومع أصدقائك بدلاً من برامج متفوقة على البشر وتلعب ضدك”.

يقول المهندس الباحث في جوجل ديب مايند، فريدريك بيس، إن الفريق درب سيما على عدد كبير من الأمثلة عن بشر يمارسون ألعاب الفيديو، سواء فردياً أو جماعياً، إضافة إلى مدخلات لوحة المفاتيح والماوس، وتعليقات حول ما كان اللاعبون يفعلونه في الألعاب.

التعلم بالمحاكاة

استخدم الفريق بعد ذلك تقنية ذكاء اصطناعي تسمى “التعلم بالمحاكاة“، وذلك لتعليم الوكيل البرمجي كيفية ممارسة الألعاب مثل البشر. يستطيع سيما أن يتبع 600 تعليمة أساسية؛ مثل: “اتجه إلى اليسار” و”تسلق السلم” و”افتح الخريطة”، ويستطيع إنجاز كل منها في أقل من 10 ثوانٍ تقريباً.

وجد الفريق أن وكيل سيما البرمجي الذي دُرِّب على الكثير من الألعاب كان أفضل من وكيل برمجي تعلم كيفية ممارسة لعبة واحدة فقط. ويُعزى هذا إلى أن الوكيل البرمجي تمكن من الاستفادة من المفاهيم المشتركة بين الألعاب حتى يتعلم مهارات أفضل، ويصبح أكثر براعة في تنفيذ الأوامر، كما يقول بيس.

ويضيف بيس قائلاً: “مرة أخرى، إنها ميزة رئيسة مهمة؛ حيث تمكنا من بناء برنامج يستطيع ممارسة ألعاب غير مألوفة بالنسبة له على الإطلاق عملياً”.

يقول المحاضر المختص بالذكاء الاصطناعي في جامعة كوين ماري في لندن، باولو روبر، إن هذا النوع من نقل المعرفة بين الألعاب المختلفة يمثل إنجازاً مفصلياً مهماً في أبحاث الذكاء الاصطناعي.

ويضيف روبر قائلاً إن الفكرة الأساسية التي تعتمد على تعلم كيفية تنفيذ الأوامر اعتماداً على الأمثلة التي يقدمها البشر يمكن أن تؤدي في المستقبل إلى بناء أنظمة أكثر قدرة. ويقول إن العائق الذي يحول دون تحسين أداء سيما هو مجموعة البيانات التدريبية الصغيرة نسبياً.

وعلى الرغم من أن عدد بيئات الألعاب التي تدرب عليها سيما ما زال صغيراً، فهو على المسار الصحيح نحو رفع مستواه وتوسيع نطاق قدراته، كما يقول أحد كبار العلماء الباحثين في شركة إنفيديا (Nvidia)، جيم فان، الذي يدير مبادرة برامج الذكاء الاصطناعي في الشركة.

نظام متطور ولكن بعيد عن مهارة البشر

غير أن نظام الذكاء الاصطناعي هذا ما زال بعيداً عن مستوى مهارة البشر، كما يقول هارلي. على سبيل المثال؛ يستطيع برنامج الذكاء الاصطناعي تنفيذ 60% فقط من المهام التي يستطيع البشر تنفيذها في لعبة نو مانز سكاي. وعندما عطل الباحثون ميزة تلقيم التعليمات البشرية إلى سيما، وجدوا أن أداء البرنامج أصبح أسوأ من ذي قبل بكثير.

يقول بيس إن الفريق سيعمل لاحقاً على تحسين أداء الوكيل البرمجي. ويرغب الباحثون في زيادة عدد البيئات التي يعمل فيها البرنامج إلى أكبر عدد ممكن، وتعليمه مهارات جديدة، كما يرغبون في أن يتمكن المستخدمون من الدردشة مع الوكيل البرمجي وتلقي الإجابات منه. أيضاً، يريد الفريق أن يكتسب سيما مهارات أكثر عمومية؛ ما يتيح له التعامل مع الألعاب غير المألوفة لديه على الإطلاق بسرعة، تماماً مثل البشر.

يقول بيس إن البشر “يتمتعون بمهارات عامة ممتازة تتيح لهم التكيف ببراعة مع البيئات والمواقف غير المألوفة. ونريد لوكلائنا البرمجيين أن يتمكنوا من العمل على هذه الشاكلة أيضاً”.

يقول الأستاذ المساعد في جامعة كاليفورنيا في مدينة إرفين، روي فوكس، إن سيما يقترب مما يسميه “لحظة تشات جي بي تي” في مجال الوكلاء البرمجية الذاتية التحكم.

لكنه ما زال بعيداً للغاية عن الذكاء الاصطناعي الذاتي التحكم الفعلي، ويقول إن هذا سيكون “أمراً مختلفاً تماماً”.