ما هي تقنية اختيار المزايا؟
هي عملية عزل المزايا الأساسية التي تكون ذات صلة في مجموعة البيانات لاستخدامها في بناء نموذج التعلم الآلي، وتهدف إلى تحسين أداء النموذج التنبؤي وتقليل التكلفة الحسابية للنموذج.
أهمية تقنية اختيار المزايا
تشمل الفوائد الرئيسية لاختيار المزايا مسبقاً معرفة المزايا الأكثر أهمية، بالإضافة إلى ما يلي:
- تبسيط النماذج: يعود تبسيط النماذج بالنفع على تسهيل تفسير نموذج الذكاء الاصطناعي، إذ إن النماذج الأكثر تعقيداً والتي يصعب تفسيرها تكون دون فائدة.
- فترات تدريب أقصر: يفيد توفير مجموعة فرعية أكثر دقة من المزايا المطلوبة بتقليل مقدار الوقت اللازم لتدريب النموذج.
- تخفيض التباين: يؤدي اختيار المزايا إلى زيادة دقة التنبؤات التي يمكن الحصول عليها لمحاكاة معينة.
- تخفيض الأبعاد: تفيد عملية اختيار المزايا في تقليل الأبعاد الناتجة عن زيادة عدد المزايا التي قد يستخرجها النموذج بشكلٍ تلقائي، وبالتالي يزداد حجم العينة بسرعة كبيرة، ويمكن ضبط هذه البيانات من خلال عملية تحليل العنصر الأساسي.
طرق اختيار المزايا
تُقسّم نماذج التعلم الآلي إلى نوعين: وهما التعلم الموجَّه والتعلم غير الموجَّه، ويتم اختيار المزايا في التعلم الموجَّه بثلاث طرق وهي:
- التصفية: تحدد طرق الترشيح المزايا بناءً على الإحصائيات، بحيث يُطبق مقياس لتحديد السمات ذات الصلة والمتكررة، وتُقيّم أهمية السمات ككل، وتحدد السمات الزائدة وغير ذات الصلة وتزيلها.
- التجميع: هي طريقة تختار مجموعة من المزايا كمشكلة بحث، ومن ثَمَّ تقييم جودتها من خلال التحضير والتقييم والمقارنة بين مجموعتين من المزايا، وتسهّل هذه الطريقة اكتشاف التفاعلات المحتملة بين المتغيرات. تركّز على اختيار مجموعات فرعية من المزايا التي ستساعد على تحسين جودة نتائج خوارزمية التجميع المستخدمة في الاختيار.
- التضمين: تدمج هذه الطريقة خوارزمية اختيار المزايا كجزء من خوارزمية التعلم، بحيث يتم تُصنَّف المزايا في وقتٍ واحد، وتشمل أمثلتها خوارزمية شجرة القرار والغابة العشوائية.