وسم البيانات DATA LABELING

1 دقيقة

ما هو وسم البيانات؟

يشير مصطلح وسم البيانات في مجال التعلم الآلي إلى عملية تعريف البيانات الخام مثل الصور ومقاطع الفيديو والملفات النصية، وإضافة وسم واحد أو أكثر لها لإعطائها سياق محدد ومنح نماذج التعلم الآلي القدرة على التعلم الموجه منها. فقد يشير الوسم مثلاً إلى محتويات صورة ما أو فيما إذا كانت تحتوي على عنصر معين، أو إلى الكلمات التي يتم نطقها في تسجيل صوتي أو مقطع فيديو.

كيف يتم وسم البيانات؟

تبدأ عملية وسم البيانات عادةً بمطالبة العامل البشري بإصدار أحكام حول جزء معطى من البيانات غير الموسومة. فعلى سبيل المثال يمكن أن يطلب منه وسم جميع الصور في مجموعة البيانات بناءً على وجود عنصر محدد فيها. ويمكن أن تكون عملية الوسم بسيطة للغاية بحيث يكتفى بالإجابة بنعم أو لا، أو معقدة لدرجة تحديد جميع البكسلات المتعلقة بالعنصر المطلوب. قد تتضمن عملية الوسم إضافة تعليقات توضيحية إلى البيانات وتصنيفها ومعالجتها بطرق مختلفة.

تتطلب معظم نماذج التعلم الآلي اليوم وسم البيانات بشكل يدوي من قبل البشر بطريقة تسمح للنموذج بتعلم كيفية اتخاذ قرارات صحيحة. ونظراً لكون العملية معقدة للغاية ومكلفة ومستهلكة للوقت بشكل كبير، يتم اللجوء إلى تلك النماذج نفسها وتدريبها على وسم البيانات بشكل تلقائي. وذلك من خلال ما يعرف باسم التعلم شبه الموجه، الذي يتم فيه تدريب النموذج باستخدام مجموعة بيانات فرعية موسومة من قبل البشر، ثم استخدامه لوسم بقية البيانات.