انحراف البيانات Data Drift

1 دقيقة

ما هو انحراف البيانات؟

هو التغير بمرور الوقت في الخصائص الإحصائية للبيانات التي تم استخدامها لتدريب نماذج التعلم الآلي، ما يؤدي إلى أن يصبح النموذج أقل دقة أو يعمل بشكل مختلف عما كان مصمماً له.

كيف نكتشف انحراف البيانات؟

لنفرض أن لدينا نموذج تعلم رؤية حاسوبية مبنياً باستخدام مجموعة بيانات مؤلفة من مئة نوع مختلف من سلالات الكلاب، ونريد أن نعرف ما إذا كانت الدقة تنخفض بسبب انحراف البيانات:

  1. نبدأ بتسجيل جميع الصور والتنبؤات الجديدة التي دخلت نظام التغذية الراجعة لدينا.
  2. نقوم بمراجعة هذه التوقعات أو التحقق من صحتها.
  3.  نقوم بمقارنة التنبؤات الأولية مع التنبؤات التي حصلنا عليها ونحسب مقاييس الأداء الخاصة بنا لمعرفة ما إذا كانت أعلى من متوسط مقاييس الأداء.

ماذا لو لم نراقب معدل انحراف البيانات؟

ستعطي نماذج التعلم الآلي تنبؤات خاطئة تقود قرارات العمل إلى مسار خاطئ، ما يؤثر سلباً على العمل. قد يكون أحد الأمثلة على مثل هذه الحالة هو تنبؤات الأسهم غير الصحيحة التي يمكن أن تخفض بشكل كبير قيمة محفظتك، فقد تخسر ملايين الدولارات بسبب التنبؤ الخاطئ بالأسهم.

كيف نمنع انحراف البيانات؟

يعد تتبع انحراف البيانات أمراً ضرورياً لاستكمال عملية التعلم الآلي. إليك أفضل الممارسات لمنع انحراف البيانات:

  • إصدار النموذج: لتتبع النموذج على مجموعات بيانات أو خوارزميات مختلفة، يجب أن تكون لديك إصدارات مختلفة من النموذج.
  • مراقبة وتدريب النموذج: من الضروري مراقبة أداء نموذجك وتدريبه باستمرار للتأكد من أن نموذجك ينتج نتائج صحيحة. تساعد المراقبة على تقييم مخرجات النموذج وتتبع الانحراف بمرور الوقت.
  • نموذج التحكم: من المهم الحفاظ على التفسيرات وقابلية المراجعة وفهم العواقب التجارية من خلال حكمها.
  • إعادة التدريب النشر: عند حدوث انحراف البيانات، يجب أن تكون مستعداً لإعادة تدريب النموذج على البيانات الجديدة ثم إعادة نشره.