دراسة تكتشف أخطاء في وسم البيانات تشوه تقييمنا لنماذج الذكاء الاصطناعي

استمع الى المقالة الآن هذه الخدمة تجريبية

وفقاً لدراسة جديدة من إم آي تي، فإن مجموعات البيانات الأكثر استشهاداً في مجال الذكاء الاصطناعي تعج بأخطاء في الوسوم، وبالتالي تشوّه فهمنا لمستوى التقدم في هذا المجال.

البيانات هي العمود الفقري للذكاء الاصطناعي

تمثل مجموعات البيانات الركيزة الأساسية التي تقوم عليها أبحاث الذكاء الاصطناعي، لكن بعضها أكثر أهمية من غيرها. هناك زمرة أساسية منها يستخدمها الباحثون لتقييم نماذج التعلم الآلي كطريقة لتتبع كيفية تقدم قدرات الذكاء الاصطناعي بمرور الوقت. ولعل إحدى أشهر مجموعات البيانات المعتمدة لهذه الغاية هي إيماج نت (ImageNet) الخاصة بالتعرف على الصور، والتي ساهمت في إطلاق ثورة الذكاء الاصطناعي الحديثة. هناك أيضاً مجموعة إمنيست (MNIST)، التي تحتوي صوراً للأرقام بين 0 و9 مكتوبة بخط اليد. بالإضافة إلى نماذج اختبار لمجموعات بيانات أخرى مدربة للتعرف على الصوت والنصوص والرسومات بخط اليد.

وسم البيانات: المشاكل لا تقتصر على التحيز

في السنوات الأخيرة، وجدت عدة دراسات أن مجموعات البيانات هذه قد تحتوي على عيوب خطيرة. وعلى سبيل المثال، تحتوي إيماج نت على وسوم متحيزة على أساس العرق والجنس، بالإضافة إلى صور لوجوه الأشخاص تم الحصول عليها دون موافقتهم. لكن الدراسة الأخيرة تسلط الضوء على مشكلة أخرى؛ إذ إن هناك الكثير من الوسوم الخاطئة تماماً، فقد تم وسم صورة لفطر على أنه ملعقة، وضفدع على أنه قطة، ونغمة عالية من أريانا جراند على أنها صوت صفير. وقد بلغ معدل الخطأ التقديري في مجموعة اختبار إيماج نت 5.8%، أما مجموعة اختبار كويك درو (QuickDraw)، وهي مجموعة من الرسومات بخط اليد، فقد قدر معدل الخطأ فيها بـ 10.1%.

كيف تم اكتشاف أخطاء الوسوم؟

في كل مجموعة من مجموعات البيانات العشرة المستخدمة لتقييم النماذج، هناك مجموعة بيانات مقابلة تستخدم في مرحلة التدريب. وقد لجأ الباحثون -وهم طلاب الدراسات العليا في إم آي تي: كورتيس جي نورثكوت، وأنيش أثالي، والخريج جوناس مولر- إلى استخدام مجموعات بيانات التدريب لتطوير نموذج التعلم الآلي ثم استخدموه للتنبؤ بالوسوم في بيانات الاختبار. إذا كان الوسم الذي يتنبؤه النموذج يختلف عن الوسم الأصلي، يتم وضع إشارة على نقطة البيانات لمراجعتها يدوياً. ثم طُلب من خمسة مراجعين بشر على منصة أمازون ميكانيكال تورك التصويت لصالح الوسم -الذي أنتجه النموذج أو الأصلي- الذي يرون أنه صحيح. فإذا توافق غالبية المراجعين البشر مع تنبؤ النموذج، فقد تم تسجيل الوسم الأصلي باعتباره خطأ ومن ثم يتم تصحيحه.

ما أهمية اكتشاف أخطاء وسم البيانات وتصحيحها؟

درس الباحثون 34 نموذجاً تم قياس أدائها سابقاً بالاعتماد على مجموعة اختبار إيماج نت. ثم أعادوا قياس أداء كل نموذج بالاعتماد على ما يقرب من 1,500 مثال، حيث وجدوا أن وسوم البيانات كانت خاطئة. ووجدوا أن النماذج التي لم تحقق أداءً جيداً على الوسوم الأصلية الخاطئة كانت من بين أفضل النماذج أداءً بعد تصحيح الوسوم. وبالتحديد، يبدو أن النماذج الأبسط تحقق أداء أفضل عند اختبارها على البيانات المصححة بالمقارنة مع النماذج الأكثر تعقيداً التي يستخدمها عمالقة التكنولوجيا مثل جوجل للتعرف على الصور، التي يفترض أنها الأفضل في هذا المجال. بعبارة أخرى، قد يكون لدينا شعور مبالغ فيه بمدى جودة هذه النماذج المعقدة بسبب اعتمادها على بيانات الاختبار المعيبة.

دعوة لتحسين جودة البيانات و”نظافتها”

يحث نورثكوت العاملين في مجال الذكاء الاصطناعي على إنشاء مجموعات بيانات أنظف وأكثر دقة لغرض تقييم النماذج وتتبع تقدم المجال. كما يوصي بأن يقوم الباحثون بتحسين نظافة وجودة بياناتهم عند التعامل مع مجموعات البيانات الخاصة بهم. وإلا، يضيف نورثكوت، “إذا كانت لديك مجموعة بيانات مشوشة ومجموعة من النماذج التي تحاول تجربتها، وستقوم بنشرها في العالم الحقيقي”، فقد ينتهي بك المطاف باختيار النموذج الخطأ. ولهذه الغاية، أتاح نسخة مفتوحة المصدر من الشيفرة التي استخدمها في دراسته لتصحيح أخطاء الوسوم، والتي يقول إنه يجري استخدامها بالفعل في عدد قليل من شركات التكنولوجيا الكبرى.