بوت شاهد 70000 ساعة من ماينكرافت قد يكون القفزة التالية في الذكاء الاصطناعي

ماين دوجو

استمع الى المقالة الآن هذه الخدمة تجريبية

قامت أوبن إيه آي (OpenAI) ببناء أفضل بوت لممارسة لعبة ماينكرافت (Minecraft) حتى الآن بجعله يشاهد 70,000 ساعة من مقاطع الفيديو لأشخاص يلعبون هذه اللعبة الحاسوبية الشهيرة. ويتضمن هذا البوت تقنية جديدة وفعّالة يمكن استخدامها لتدريب الآلات على تنفيذ نطاق واسع من المهام، وذلك بمشاهدة كميات كبيرة من مقاطع الفيديو على مواقع مثل يوتيوب (Youtube)، والذي يمثل مصدراً هائلاً ولم يتم استثماره لبيانات التدريب.

وقد تمكن الذكاء الاصطناعي المخصص للعب ماينكرافت من تعلم كيفية تنفيذ سلاسل معقدة من النقرات المتتابعة على لوحة المفاتيح والفأرة الحاسوبية لأداء بعض المهام في اللعبة، مثل قطع الأشجار وصنع الأدوات. وهو أول بوت يستطيع صنع ما يسمى بالأدوات الماسية ضمن اللعبة، وهي مهمة تتطلب من اللاعب البشري الجيد 20 دقيقة من النقرات السريعة، أو ما يقارب 24,000 حركة.

إنجاز على مستوى تقنيات التدريب بالبيانات

تمثل النتيجة إنجازاً بالنسبة لهذه التقنية المعروفة باسم التعلم بالتقليد، حيث يتم تدريب الشبكات العصبونية على تنفيذ المهام عن طريق مشاهدة البشر وهم ينفذونها. يمكن استخدام التعلم بالتقليد لتدريب الذكاء الاصطناعي على التحكم بالأذرع الروبوتية، وقيادة السيارات، أو تصفح الويب.

يمكن أن نجد على الإنترنت مقادير هائلة من مقاطع الفيديو التي تتضمن أشخاصاً يقومون بمهام مختلفة. وباستثمار هذا المورد، يأمل الباحثون أن يحققوا في مجال التعلم بالتقليد ما أمكن تحقيقه في مجال النماذج اللغوية الكبيرة ببرنامج جي بي تي 3 (GPT3). يقول باوين بيكر في أوبن إيه آي، وهو أحد أفراد الفريق الذي صمم البوت الجديد: “رأينا في السنوات القليلة الأخيرة صعود نمط النماذج الذي يمثله جي بي تي 3، حيث يتم تدريب النموذج الضخم على كميات هائلة من البيانات على الإنترنت لإكسابه قدرات مذهلة، وتعتمد هذه القدرات بنسبة كبيرة على قيامنا بنمذجة ما يقوم به البشر على الإنترنت”.

تكمن المشكلة في المقاربات الحالية للتعلم بالتقليد في الحاجة إلى تصنيف هذه المقاطع التعليمية في كل خطوة: فالقيام بهذه الحركة يؤدي إلى هذه النتيجة، والقيام بتلك الحركة يؤدي إلى تلك النتيجة، وهكذا دواليك. ويحتاج وضع الإشارات عليها بهذه الطريقة إلى الكثير من العمل، ولهذا فإن قواعد البيانات هذه تميل إلى الحجم الصغير. وقد أراد بيكر وزملاؤه العثور على طريقة لتحويل الملايين من مقاطع الفيديو المتوافرة على الإنترنت إلى مجموعة بيانات جديدة.

تدريب الفيديو الأولي

وتقوم طريقة الفريق، والتي تحمل اسم تدريب الفيديو الأولي (VPT)، بالالتفاف على هذه المشكلة في التعلم بالتقليد عن طريق تدريب شبكة عصبونية أخرى على وضع الإشارات على مقاطع الفيديو آلياً. ولهذا، لجأ الفريق إلى التعهيد الجماعي لتوظيف أشخاص يلعبون ماينكرافت، وتسجيل نقرات لوحة المفاتيح والفأرة، إضافة إلى مقاطع الفيديو من شاشاتهم. وتمكن الباحثون بهذه الطريقة من الحصول على 2,000 ساعة مشروحة من مقاطع لعب ماينكرافت، واستخدموها لتدريب نموذج على مطابقة الأفعال مع النتيجة الظاهرة على الشاشة، فالنقر على زر الفأرة في أوضاع معينة يجعل شخصية اللاعب تلوح بالفأس، على سبيل المثال.

أما الخطوة التالية فهي استخدام هذا النموذج لتوليد إشارات للأفعال لأكثر من 70,000 ساعة من مقاطع الفيديو غير المشروحة والمأخوذة من الإنترنت، واستخدام هذه المقاطع بعد ذلك كقاعدة بيانات ضخمة لتدريب بوت ماينكرافت.

يقول بيتر ستون، وهو مدير تنفيذي في سوني أيه آي (Sony AI) في أميركا، وكان يعمل في مجال التعلم بالتقليد: “تمثل مقاطع الفيديو أحد موارد التدريب ذات الإمكانات الكامنة الكبيرة للغاية”.

يمثل التعلم بالتقليد بديلاً للتعليم المعزز، حيث تتعلم الشبكة العصبونية أداء مهمة معينة من الصفر عبر التجربة والخطأ. وهي التقنية التي أدت إلى تحقيق الكثير من الإنجازات الكبيرة في مجال الذكاء الاصطناعي في السنوات القليلة الماضية. فقد تم استخدامها لتدريب نماذج تستطيع التغلب على البشر في الألعاب، والتحكم بمفاعل اندماجي، واكتشاف طريقة أكثر سرعة لتنفيذ الحسابات الرياضية الأساسية.

وتكمن المشكلة في أن التعليم المعزز يصلح على وجه الخصوص للمهام التي تتضمن هدفاً محدداً، حيث يمكن للأفعال العشوائية أن تؤدي إلى تحقيق نجاح عرضي. وتكافئ خوارزميات التعلم المعزز هذه النجاحات العرضية بحيث تزيد من احتمال حدوثها مرة أخرى.

مشكلات تواجه النموذج في تدريبه على لعبة ماينكرافت

ولكن، لا يوجد هدف محدد في لعبة ماينكرافت. ويتمتع اللاعبون بمطلق الحرية للقيام بأي شيء، مثل التجول في العالم المولد حاسوبياً، والتنقيب عن مواد مختلفة، وجمعها لبناء أشياء مختلفة.

إن التصميم المفتوح للعبة ماينكرافت يجعلها بيئة جيدة لتدريب الذكاء الاصطناعي. وقد كان بيكر أحد الباحثين المشرفين على مشروع هايد أند سيك (Hide&Seek) (أي لعبة الغميضة)، حيث يتم إطلاق بوتات للتجول بحرية ضمن ملعب افتراضي، واستخدام التعليم المعزز لاكتشاف كيفية التعاون واستخدام الأدوات والفوز بألعاب بسيطة. ولكن البوتات تمكنت بعد فترة قصيرة من تطوير قدراتها بشكل يتجاوز هذه البيئة. يقول بيكر: “لقد تمكنت هذه البرامج من الهيمنة على هذا الكون الصغير، وحققت كل ما يمكن تحقيقه ضمن حدود هذه البيئة. ولهذا، رغبنا بتوسيع نطاق التجربة، ووجدنا أن ماينكرافت تمثل مجالاً رائعاً للعمل”.

ماينكرافت بيئة مهمة لاختيار تقنيات الذكاء الاصطناعي الجديدة

وقد توصل آخرون إلى هذه النتيجة أيضاً. فقد أصبحت ماينكرافت بيئة مهمة لاختيار تقنيات الذكاء الاصطناعي الجديدة. وعلى سبيل المثال، فقد فازت ماين دوجو (MineDojo)، وهي بيئة في ماينكرافت تتضمن عدة تحديات مصممة مسبقاً، بجائرة في مؤتمر نظم معالجة المعلومات العصبية (اختصاراً: NeurIPS) لهذه السنة، وهو أحد أكبر مؤتمرات الذكاء الاصطناعي.

وباستخدام طريقة التدريب المسبق عبر الفيديو “في بي تي” (VPT)، تمكن بوت أوبن أيه آي من تنفيذ مهام كان سيستحيل تنفيذها باستخدام التعليم المعزز لوحده، مثل صنع الألواح الخشبية، وتحويلها إلى طاولة، وهو ما يحتاج إلى قرابة 970 حركة متتابعة. وعلى الرغم من هذا، فقد وجد الباحثون أن استخدام التعلم بالتقليد والتعلم المعزز معاً يعطي أفضل النتائج. فعند تدريب البوت بطريقة في بي تي، واستخدام التعلم المعزز بعد ذلك لزيادة دقته، سيصبح قادراً على تأدية مهام تحتاج إلى أكثر من 20,000 حركة متتابعة.

ويقول الباحثون إنه يمكن استخدام طريقتهم لتدريب الذكاء الاصطناعي على القيام بمهام أخرى. وعلى سبيل المثال، يمكن استخدامها مع البوتات التي تعتمد على لوحة المفاتيح والماوس لتصفح مواقع الويب، وحجز مقاعد الطائرات، وشراء البقالة على الإنترنت. ولكن، ومن الناحية النظرية على الأقل، يمكن استخدامها لتدريب الروبوتات على القيام بمهام حقيقية ومادية، وذلك بتقليد مقاطع فيديو من وجهة نظر الشخص الأول لأشخاص يقومون بتلك المهام. يقول ستون: “هذا ممكن”.

تقول ناتاشا جاك، والتي تعمل على التعلم المعزز متعدد العناصر في جوجل وجامعة كاليفورنيا في بيركلي: “هذا العمل إثبات جديد على النتائج الرائعة لتضخيم النماذج وتدريبها على مجموعات بيانات ضخمة للحصول على أداء ممتاز”.

وتقول جاك إن مجموعات البيانات الضخمة المستمدة من الإنترنت ستؤدي بالتأكيد إلى إطلاق قدرات جديدة لأنظمة الذكاء الاصطناعي. وتقول: “لقد شهدنا هذا مراراً وتكراراً، وهي مقاربة رائعة”. ولكن أوبن أيه آي تركز كثيراً، وربما بشكل مبالغ فيه، على قدرات مجموعات البيانات الضخمة وحدها، كما تقول: “شخصياً، أشعر بالشك في قدرة البيانات وحدها على حل أي مشكلة”.

ولكن بيكر وزملاءه يعتقدون أن جمع أكثر من مليون ساعة من فيديوهات ماينكرافت سيجعل نظامهم أفضل بكثير. ويقول بيكر إنه على الأرجح أفضل بوت للعب ماينكرافت. ويضيف قائلاً: “ولكن، وبوجود المزيد من البيانات ونماذج أكبر، أتوقع أنه سيصبح أقرب إلى كائن بشري يلعب اللعبة منه إلى نظام ذكاء اصطناعي قليل الخبرة يحاول تقليد البشر”.