التعلم المعزز العميق DEEP REINFORCEMENT LEARNING

1 دقيقة

ما هو التعلم المُعزز العميق؟

نوع من أنواع التعلم الآلي يجمع بين التعلم المعزز والتعلم العميق للسماح للآلات الذكية بالتعلم من أفعالها بنفس الطريقة التي يتعلم بها البشر من تجاربهم، وتحقيق أداء يرقى إلى مستوى الذكاء البشري في العديد من المجالات الصعبة. فالتعلم المُعزز يسمح لتلك الآلات بتعليم نفسها كيفية بلوغ إستراتيجيات ناجحة تؤدي إلى أفضل المكافآت على المدى الطويل عن طريق التعلم من التجربة والخطأ بالاعتماد على المكافأة أو العقوبة. بينما يساعدها التعلم العميق على التعلم  من المدخلات الأولية التي لا تخضع إلى أي عملية استخلاص ميزات أو استدلال وذلك بالاعتماد على  الشبكات العصبونية الاصطناعية.

يشير الجزء العميق من التعلم المعزز إلى عدة طبقات "عميقة" من الشبكات العصبونية الاصطناعية التي تستنسخ بنية الدماغ البشري. يتطلب التعلم العميق كميات كبيرة من بيانات التدريب وقدرات معالجة عالية. ونظراً لحدوث انفجار في أحجام البيانات تزامناً مع انخفاض تكلفة قدرات المعالج الحاسوبية بشكل ملحوظ عبر السنوات القليلة الماضية، بات من السهل تطوير الكثير من تطبيقات التعلم العميق. 

كانت شركة ديب مايند التابعة لشركة جوجل من أوائل مطوري خوارزميات التعلم العميق المعزز الناجحة على نطاق واسع. تستخدم  خوارزمية شبكة كيو العميقة (Deep Q-Network) التي طورتها الشركة الشبكات العصبونية العميقة لتمثيل ما يعرف باسم شبكة كيو المسؤولة عن الحكم المستمر على قيم النظام لاختيار الإجراءات الصحيحة بدلاً من الخاطئة بالاعتماد على التعلم المُعزز، وتدريب هذه الشبكة على التنبؤ بالمكافأة الإجمالية التي سيتلقاها ذلك النظام بعد إتمام سلسلة محددة من الإجراءات. 

يمكن استخدام التعلم المُعزز العميق في العديد من المجالات، ومن أهم الأمثلة على ذلك توظيف خوارزمية دي كيو إن من قبل ديب مايند في نظام ألفا جو (AlphaGo) الذي احترف لعبة جو الصينية وتغلب على أحد أقوى لاعبيها على مستوى العالم، وفي نظام إيجنت-57 (Agent57) القادر على لعب جميع ألعاب أتاري التي يبلغ عددها 57 لعبة فيديو ضمن بيئة آركيد للتعلم. والهدف المستقبلي هو استخدامه في العديد من المجالات الهامة مثل قطاع الرعاية الصحية والتصنيع والقطاع المالي وغيرها.