خوارزمية أقرب الجيران K-NEAREST NEIGHBORS (KNN)

1 دقيقة

ما هي خوارزمية كي-الجيران الأقرب؟

هي واحدة من أبسط خوارزميات التعلم الآلي الموجَّه التي تستخدم لحل مشكلات التصنيف والانحدار. تعتمد خوارزمية كي-الجيران الأقرب على إيجاد المسافة بين عينة الاختبار وجميع الأمثلة الموجودة في مجموعة بيانات التدريب. ويمثل المتغير “كي” في اسم الخوارزمية عدد العناصر الأقرب إلى العينة الجديدة المراد تصنيفها.

يتم اختيار قيمة “كي” في خوارزمية كي-الجيران الأقرب بشكل تجريبي؛ حيث يتم تشغيل الخوارزمية عدة مرات مع قيم مختلفة للمتغير كي. وبناءً على النتائج يقع الاختيار على القيمة التي تُخفّض عدد الأخطاء إلى الحد الأدنى مع الحفاظ على قدرة الخوارزمية على إجراء تنبؤات دقيقة.

عادةً يكون “كي” عدد فردي يبدأ من القيمة 1، وتزداد دقة التصنيف كلما كانت قيمته أكبر. لكن الزمن الذي تستغرقه الخوارزمية للتصنيف سيزداد أيضاً مع زيادته. ويعد البطء مع ازدياد حجم البيانات العيب الرئيسي لهذه الخوارزمية.

بعد اختيار “كي” عينة قريبة من عينة الاختبار يتم التصويت على الوسم الأكثر تكراراً لتحديد صنف تلك العينة في مسائل التصنيف، فعلى سبيل المثال في حال كانت “كي” تساوي 3 وكان اثنان من العناصر المختارة ينتميان إلى صنف أول والعنصر الثالث ينتمي إلى صنف ثاني، فيتم اختيار الصنف الأول. أما في حالة مسائل الانحدار فيتم حساب متوسط الوسوم.