ذكاء اصطناعي من ديب مايند يكاد يتفوق على جميع اللاعبين البشر في لعبة ستار كرافت 2

في يناير 2019، أعلنت ديب مايند أنها حققت مرحلة مفصلية في سعيها لبناء الذكاء الاصطناعي العام، فقد صممت نظام ذكاء اصطناعي، يحمل اسم ألفاستار، تمكن من التغلب على اثنين من اللاعبين المحترفين في ستار كرافت 2، وهي لعبة فيديو ذائعة الصيت حول الحرب بين المجرات. كان هذا إنجازاً هاماً؛ حيث إن ستار كرافت معقدة للغاية، وتتضمن 1,026 خياراً لكل حركة، كما أنها لعبة تتضمن الاعتماد على معلومات غير تامة، ولا توجد هناك إستراتيجيات محددة تضمن الفوز. ويمثل هذا الإنجاز مستوى جديداً من ذكاء الآلات.

أما الآن، فقد أطلقت ديب مايند -وهي تتبع لشركة ألفابيت- تحديثاً جديداً؛ حيث إن ألفاستار يتفوق حالياً على الأغلبية العظمى من لاعبي ستار كرافت النشطين، وهو ما يؤكد رسوخ قدراته على ارتجال الإستراتيجيات الناجحة بسرعة وبشكل متكرر أكثر من ذي قبل. نُشرت النتائج في مجلة Nature، ويمكن أن تعني تبعات هامة بالنسبة للعديد من التطبيقات، بدءاً بالترجمة الآلية وصولاً إلى المساعدات الرقمية، وحتى التخطيط العسكري.

ستار كرافت لعبة إستراتيجية تُلعب في الزمن الحقيقي، غالباً بين متنافسين اثنين. يجب فيها أن يختار اللاعب واحداً من ثلاثة أنواع بشرية أو فضائية -بروتوس، تيران، زيرج- ويوزع جهوده بين جمع الموارد، وإنشاء البنى التحتية والأسلحة، ومهاجمة الخصم للفوز باللعبة. ويتصف كل واحد من الأنواع السابقة بمهارات وقيود معينة تؤثر على إستراتيجية الفوز، ولهذا عادة ما يختار اللاعبون إحداها ويحاولون إتقان اللعب بها.

استخدم ألفاستار التعليم المعزز، حيث تتعلم الخوارزمية عن طريق المحاولة والخطأ، وذلك لتعلم اللعب بجميع الأنواع في اللعبة. يقول ديفيد سيلفر، الباحث العلمي الأساسي في ديب مايند، في اتصال هاتفي: "هذا هام للغاية، لأنه يعني من حيث المبدأ إمكانية تطبيق نفس الأساليب على مجالات أخرى". وقد تمكن الذكاء الاصطناعي أيضاً من التفوق على 99.8% من اللاعبين النشطين في الاتحاد الرسمي للاعبين على الإنترنت.

ألفاستار، يلعب بدور بروتوس (باللون الأخضر)، وهو يتصدى لهجوم من لاعب زيرج.
مصدر الصورة: تقدمة من ديب مايند

للحصول على هذه المرونة، قام فريق ديب مايند بتعديل الأسلوب الشائع المعروف باسم اللعب الذاتي، حيث تلعب خوارزمية تعلم معزز ضد نفسها للتعلم بشكل أسرع، وهو الأسلوب الذي اشتهرت ديب مايند باستخدامه لتدريب ألفاجو زيرو، البرنامج الذي علم نفسه -من دون أي إشراف بشري- كيفية التغلب على أفضل اللاعبين البشر في لعبة جو القديمة. وقد استخدمها المختبر أيضاً في النسخة الأولية من ألفاستار.

تقليدياً، تعتمد طريقة اللعب الذاتي على برمجة كلتا النسختين من الخوارزمية لتحقيق أعلى فرصة في الفوز، ولكن الباحثين اكتشفوا أن هذا لا يؤدي بالضرورة إلى الأداء الأفضل؛ فبالنسبة للعبة مفتوحة النهاية كهذه، يمكن أن تؤدي هذه الطريقة إلى توجيه الخوارزمية نحو إستراتيجيات معينة لا يمكن أن تنجح إلا في ظروف محددة.

ولهذا قرر الفريق أن يستلهم طريقة تدريب لاعبي ستار كرافت المحترفين لبعضهم البعض، وبرمجوا واحدة من الخوارزميات حتى تكشف أخطاء الأخرى بدلاً من اللعب لتحقيق أعلى فرصة للفوز. يقول أوريول فينيالز، الباحث الرئيسي في المشروع، في اتصال هاتفي: "تشبه هذه الطريقة طلبك من صديقك أن يلعب ضدك، وبعد أن يبين لك ما هي نقاط ضعفك، ستصبح أكثر مهارة في نهاية المطاف". وقد أنتجت الطريقة بالفعل خوارزميات أكثر عمومية يمكن أن تتكيف مع مجال أكثر اتساعاً من سيناريوهات اللعب.

يعتقد الباحثون أن مهارات ألفاستار في تطوير وتنسيق الإستراتيجيات يمكن أن تُطبق على الكثير من المسائل الأخرى. يقول سيلفر: "لقد اخترنا ستار كرافت لأننا شعرنا أنها تعكس الكثير من التحديات التي نواجهها في التطبيقات الواقعية"، ويضيف أن هذه التطبيقات تتضمن المساعدات الرقمية والسيارات ذاتية القيادة وغيرها من الآلات التي يجب أن تتفاعل مع البشر، قائلاً: "إن تعقيد ستار كرافت يذكرنا بشكل واضح بما نراه في العالم الحقيقي".

غير أن ألفاستار يبين قيود الذكاء الاصطناعي الهامة أيضاً، فعلى سبيل المثال، ما زال في حاجة إلى بيانات تدريب بأحجام أكبر بعدة مراتب مما يحتاج إليه اللاعب البشري لتحقيق نفس المستوى من المهارة، كما أنه ما زال في حاجة إلى الكثير من العمل حتى يُستخدم في الروبوتات أو تطبيقات العالم الحقيقي.