هي بيانات يكون فيها توزيع الفئات غير متساوٍ، حيث تحتوي البيانات على نسبة عالية من العينات التابعة لفئة واحدة، بينما تحتوي الفئات الأخرى على عدد أقل من العينات، وتعد من مشكلات البيانات الأكثر شيوعاً في التعلم الآلي.
لماذا تعتبر البيانات غير المتوازنة مشكلة؟
تعتبر البيانات غير المتوازنة مشكلة شائعة، إذ إنها تسبب مشكلات في كل من تدريب وتقييم النماذج، ويعود ذلك إلى أن التدريب والتقييم يعملان بافتراض وجود عدد كافٍ من العينات لكل فئة، وهذا الشرط الذي لا تحققه البيانات غير المتوازنة.
ويمكن إيضاح المشكلة كما يلي:
في التدريب: تسبب مجموعة البيانات غير المتوازنة مشكلات عند تدريب النموذج، خاصة عندما تكون مجموعة البيانات صغيرة بحيث يحتاج النموذج إلى العديد من العينات لكل فئة حتى يتمكن من التعميم بشكلٍ مناسب، يؤدي هذا إلى ضعف الأداء في كلٍّ من مجموعات بيانات التقييم والتسجيل.
في التقييم: تسبب البيانات غير المتوازنة مشكلات في فهم أداء النموذج عند تقييم الأداء على البيانات غير المتوازنة، فإن النماذج تتنبأ جيداً لفئة العينات ذات الحجم الأكبر فقط وقد تبدو عالية الأداء عند النظر إلى الدقة، بينما في الحقيقة يكون أداء النموذج منخفضاً لأنه لم يتدرب جيداً على كل الفئات.
أفضل الممارسات لمعالجة البيانات غير المتوازنة
تقنية تقليص الحجم العشوائي (RU): هي عملية الاحتفاظ بجميع البيانات في فئة الأقلية وتقليل حجم فئة الأغلبية، وهي واحدة من عدة تقنيات يمكن للعلماء استخدامها لاستخراج معلومات أكثر دقة من مجموعات البيانات غير المتوازنة.
تقنية تضخيم الحجم العشوائي (RO): هي عملية الاحتفاظ بجميع البيانات في فئة الأغلبية مع تضخيم الفئات الأقلية من أجل موازنة الفئات، قد ينتج عنها تحيز بسبب التركيز على قيم الميزة للعينات المتكررة، بدلاً من العثور على مزايا منفصلة ذات صلة.
تقنية تضخيم الحجم اصطناعياً (SMOTE): في هذه العملية يتم تضخيم فئة الأقلية من خلال توليد بيانات اصطناعية جديدة غير متطابقة للقضاء على التحيز وموازنة البيانات في الفئات.
نستخدم ملفات تعريف الارتباط لتحسين تجربتك، استمرار استخدامك للموقع يعني موافقتك على ذلك. سياسة الخصوصيةأوافقX
Privacy & Cookies Policy
Privacy Overview
This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.