إذا تمكنّا من تحسين تمييز الذكاء الاصطناعي لصور الكوارث، فقد نُحسّن من استجابتنا لها

كان آندرو وينيرت وزملاؤه يشعرون بإحباط شديد؛ فبعد أن ضرب الإعصار ماريا جزيرة بورتوريكو، كان الباحثون في مختبر لينكولن في معهد إم آي تي يعملون جاهدين على محاولة مساعدة الوكالة الفيدرالية لإدارة الطوارئ (فيما FEMA) على تقييم الأضرار، وكانت لديهم مجموعة البيانات المثالية: 80,000 لقطة جوية للمنطقة، قامت الدوريات الجوية المدنية بتصويرها مباشرة بعد الكارثة.

ولكن كانت هناك مشكلة، فقد كان عدد الصور ضخماً للغاية بحيث يستحيل تصنيفها يدوياً، كما أن الأنظمة التجارية للتعرف على الصور كانت تُخفق في التعرف على أي شيء ذي مغزى. وفي أحد أشنع الأمثلة على هذه الإخفاقات، أوصى إميج نت -وهو المعيار الذهبي لتصنيف الصور- بتصنيف صورة منطقة فيضان ضخمة على أنها مرحاض. يقول وينيرت: "كان لدينا محتوى مذهل من المعلومات من دون إمكانية الوصول إليها".

أدرك الباحثون بسرعة أن هذه المشكلة ليست فريدة من نوعها. ففي أية كارثة ضخمة، يمكن لفرق الاستجابة للطوارئ (مثل فيما) أن توفر الكثير من الوقت والموارد باستعراض تفاصيل الأوضاع على الأرض قبل وصولها. ولكن معظم أنظمة الرؤية الحاسوبية مُدرَّبةٌ على الصور المأخوذة من الحياة اليومية، ولهذا لا تستطيع أن تميز التفاصيل الهامة في مناطق الكوارث بشكل موثوق.

وقد دفعت هذه النتيجة بالفريق إلى تجميع مجموعة جديدة من الصور ومقاطع الفيديو وتصنيفها بشكل خاص من أجل سيناريوهات الاستجابة للكوارث. وقاموا مؤخراً بنشر مجموعة البيانات مع بحث جديد على أمل استخدامها لتدريب أنظمة الرؤية الحاسوبية في المستقبل.

وتتضمن مجموعة البيانات أكثر من 620,000 صورة و96.5 ساعة من مقاطع الفيديو من جميع الولايات الأميركية. وتم الحصول على معظم المواد من قواعد البيانات الحكومية، أو من فيديوهات كرييتيف كومونز على يوتيوب، إضافة إلى نسبة صغيرة تم تصويرها من قِبل طاقم مختبر لينكولن أنفسهم.

صور من مجموعة البيانات.
مصدر الصور: تقدمة من مختبر لينكولن في إم آي تي

ولجعل الصور مفيدة فعلاً لفرق الطوارئ، درس الباحثون عدة سيناريوهات طوارئ يمكن أن تُسبّب الإرباك لأنظمة التصنيف التقليدية. وعلى سبيل المثال، قاموا بتجميع صور من سيارات تغمرها مياه الفيضانات، التي تصنفها معظم الأنظمة على أنها قوارب بمجرد رؤية المياه، وهو أمر متوقع بالنظر إلى بياناتها التدريبية.

كما أمضى الباحثون أيضاً وقتاً طويلاً في دراسة أفضل الطرق لتصنيف الصور، فقد أرادوا أن يقدم التصنيف سياقاً مفيداً لفرق الطوارئ لمساعدتهم في مهمتهم، ومن ناحية أخرى، أرادوا أن يكون التصنيف بسيطاً بما يكفي حتى يستطيع المصنِّفون القيام به بسرعة وبأقل قدر ممكن من الأخطاء. ولهذا قاموا بمحاكاة طريقة إميج نت في التنظيم، التي تعتمد على تصنيف الصور إلى فئات متزايدة التحديد، مثل حيوان – كلب – لابرادور (أحد أنواع الكلاب). ولكن بدلاً من تصنيف الأشياء، قام الباحثون بتجميع الصور بشكل متزايد التحديد بناء على صفات الكارثة: هل هناك أضرار؟ نعم أو لا؟ هل هناك مياه؟ نعم أو لا؟ هل من المفترض أن تتواجد المياه هناك؟ نعم أو لا؟

ويمكن لهذه التصنيفات أن تسمح لباحثي الرؤية الحاسوبية بتصنيف مجموعة البيانات بسهولة، واختيار الأجزاء الهامة لتدريب أنظمة التعرف على الصور الخاصة بالكوارث. وبعد ذلك، ستقوم هذه الأنظمة بمساعدة فرق الطوارئ على تنفيذ معالجة سريعة للصور من سيناريوهات الكوارث الجديدة، واكتساب فكرة تقريبية عن المناطق التي تعرضت لأسوأ الآثار، وما يجب أن تتوقعه من أوضاع على الأرض، وما الإمدادات الضرورية للمهمة.

ويرى وينيرت أن العمل لم ينتهِ بعد، ولكنه يشعر بالحماس إزاء الاحتمالات الممكنة، حيث يقول: "إذا طرحنا طريقة جيدة لتصنيف صور الكوارث المخصصة لفرق الاستجابة، فإن أمازون وتاسك رابيت وغيرها من الكيانات السحابية" يمكن أن تعتمدها كمعيار للصناعة بأسرها، وتبدأ بتطوير أنظمة تعرف على الصور أكثر قدرة على التعامل مع الكوارث.

وقد طرح الباحثون مجموعة البيانات على المعهد الوطني للمعايير والتكنولوجيا، وبدؤوا يعملون مع منظمات أخرى لتنظيم مسابقات حول استخدامها. يقول وينيرت: "نحن نتطلع إلى تقديم هذه البيانات إلى باحثي الرؤية الحاسوبية".