كشف الشذوذ Anomaly Detection

1 دقيقة

ما هو كشف الشذوذ؟

هو أحد خطوات التنقيب عن البيانات التي تكشف نقاط البيانات والأحداث التي تنحرف عن السلوك الطبيعي لمجموعة البيانات، ويمكن أن تشير البيانات الشاذة إلى معلومات خطيرة، مثل خلل تقني أو كارثة طبيعية.

أهمية كشف الشذوذ 

يعد كشف الشذوذ مهماً للغاية في مجالات مثل القطاع المالي والأمن السيبراني، إذ يوفّر وسيلة آلية لاكتشاف القيم المتطرفة الضارة ويوفّر حماية للبيانات. مثلاً، في الخدمات المصرفية يتم الاستفادة من كشف الشذوذ في تحديد النشاط الاحتيالي والأنماط غير المتسقة.

أنواع شذوذ البيانات

يوجد ثلاثة أنواع للشذوذ في البيانات، وهي:

  • القيم المتطرفة العالمية: وتُسمى الشذوذ النقطي، تعتبر نقطة البيانات متطرفة عالمياً إذا كانت قيمتها بعيدة كل البُعد عن مجموعة البيانات التي توجد فيها.
  • القيم المتطرفة السياقية: وتُسمى الشذوذ الشرطي، هذه الحالات الشاذة لها قيم تنحرف بشكلٍ كبير عن نقاط البيانات الأخرى الموجودة في السياق نفسه.
  • القيم المتطرفة الجماعية: عندما تشكّل مجموعة فرعية من نقاط البيانات شذوذاً داخل مجموعة البيانات بأكملها، فإن هذه القيم تُسمى القيم المتطرفة الجماعية.

طرق كشف الشذوذ في البيانات

توجد مجموعة متنوعة من الطرق لاكتشاف الشذوذ في البيانات. إليك أكثر تقنيات الكشف عن الشذوذ شيوعاً هي:

  • الخوارزميات القائمة على كثافة البيانات: تحدد أساليب الكشف عن الشذوذ هذه القيم المتطرفة بناء على ما إذا كانت نقطة البيانات تنحرف إلى خارج مجموعة البيانات العادية.
  • الخوارزميات القائمة على العنقدة: تحدد هذه الطرق نقاط البيانات للمجموعات بناء على أوجه التشابه المكتشفة، وتعد خوارزمية تجميع كي-المتوسط مثالاً عليها، حيث يتم تحديد القيم المتطرفة من خلال ابتعادها عن مجموعة عنقودية.
  • خوارزميات الشبكة البايزية: تعمل هذه الأساليب من خلال تحديد احتمال وقوع حدث ما بناءً على وجود عوامل مساهمة واكتشاف العلاقات مع نفس السبب المؤدي لحدوثها.
  • خوارزميات الشبكة العصبونية: تستخدم هذه الأساليب البيانات التي تتسم بطابع زمني للتنبؤ بأنماط البيانات وتحديد القيم المتطرفة التي لا تتماشى مع البيانات التاريخية. وتعد الشبكات العصبونية ذات الذاكرة الطويلة قصيرة الأمد (LSTM) مثال عليها.