تكنوضاد ذكاء اصطناعي

التعلم المعزز | REINFORCEMENT LEARNING


ما هو التعلم المعزز؟

نوع من أنواع التعلم الآلي يقوم على فكرة تعليم وكيل ما بالاعتماد على عواقب أفعاله في بيئة معينة؛ حيث تتم مكافأته عندما يكون سلوكه مرغوباً ومعاقبته عندما يكون سلوكه غير مرغوب. يُعتبر التعلم المعزز نموذج تعلم سلوكي يكون الوكيل فيه قادراً على إدراك وتفسير بيئته؛ وبالتالي يتعلم اتخاذ القرارات الصحيحة عن طريق التجربة والخطأ سعياً للحصول على المكافأة طويلة الأمد.

يتم مكافأة وكيل التعلم المعزز عن طريق إسناد قيم إيجابية للأفعال المرغوبة لتشجيعه على القيام بها. ومعاقبته عن طريق إسناد قيم سلبية للأفعال الخاطئة أو غير المرغوبة لردعه عن القيام بها. ومع الوقت يتعلم ذلك الوكيل تجنب القيم السلبية والسعي نحو القيم الإيجابية للحصول على المكافأة الإجمالية طويلة الأمد وذات القيمة الأعلى؛ وبالنتيجة تحقيق الحل الأمثل.

يختلف التعلم المعزز عن التعلم الموجَّه، ويكمن الفرق في أن التعلم الموجَّه يعتمد على تدريب النموذج بالاعتماد على الإجابات الصحيحة التي تكون مقترنة ببيانات التدريب. بينما في التعلم المعزز لا يوجد إجابات صحيحة أو مجموعة بيانات تدريب إنما يكون الدخل عبارة عن حالة ابتدائية ثم يقرر الوكيل ما سيفعله لأداء المهمة المطلوبة، وبذلك يتعلم من تجربته.

ما أهم تطبيقات التعلم المعزز؟

يستخدم التعلم المعزز اليوم في العديد من تطبيقات الذكاء الاصطناعي في مجال الألعاب وإدارة الموارد والتوصيات المخصصة والروبوتات. ومن أهم الأمثلة على تلك التطبيقات نظام التوصيات في موقع يوتيوب الذي يقوم باقتراح مقاطع فيديو مشابه قد تعجب المستخدم بعد مشاهدته لمقطع معين بناءً على العنوان مثلاً. وفي حال بدأ ذلك المستخدم بمشاهدة أحد المقاطع المقترحة ولم يقم بإنهائه سيفهم النظام أن تلك الاقتراحات ليس جيدة بما فيه الكفاية وسيلجأ إلى مقاربة أخرى في المرة القادمة.

تُعد الألعاب أيضاً من أكثر مجالات استخدام التعلم المعزز شيوعاً، ومن الأمثلة عليها نظام ألفا غو (AlphaGo) المطور من قبل شركة ديب مايند التابعة لجوجل. فقد احترف هذا النظام لعبة غو الصينية المعقدة وتغلب على أحد أقوى لاعبيها على مستوى العالم.


مفاهيم من نفس المحور


مقالات تم ذكر هذا المصطلح فيها


بدعم من تقنيات