Article image
مصدر الصورة: إم إس تك عبر أنسبلاش



في مسعى من الباحثين لمواجهة صعوبات توليد مجموعات البيانات الكبيرة واحتوائها على تحيز، يقترحون اليوم بديلاً لها باستخدام مجموعات البيانات المولدة حاسوبياً.

2021-02-08 12:33:55

08 فبراير 2021

يتم تدريب معظم أنظمة التعرف على الصور باستخدام قواعد بيانات كبيرة تحتوي على ملايين الصور للأشياء اليومية بدءاً من صور الثعابين إلى الرقصات ووصولاً إلى صور الأحذية. ومن خلال قراءة أنظمة الذكاء الاصطناعي لهذه الصور، فإنها تتعلم التمييز بين غرض وآخر.  واليوم، أظهر باحثون في اليابان أنه بإمكان أنظمة الذكاء الاصطناعي أن تبدأ في تعلم التعرف على الأشياء اليومية من خلال تدريبها على الكُسيريات المولدة حاسوبياً بدلاً من الطريقة السابقة.

ورغم كونها فكرة غريبة بعض الشيء، لكنها قد تحقق تقدماً هائلاً في هذا المجال. يعد التوليد الآلي لبيانات التدريب توجهاً مثيراً في مجال التعلم الآلي؛ حيث إن الاعتماد على إمداد لا محدود من الصور المصنعة آلياً بدلاً من الصور المأخوذة من الإنترنت يسمح بتجنب المشاكل المرافقة لاستخدام مجموعات البيانات الحالية التي يجري تجميعها يدوياً.

مشاكل تدريب نماذج الذكاء الاصطناعي

التدريب الأولي هو مرحلة تتعلم خلالها أنظمة الذكاء الاصطناعي بعض المهارات الأساسية قبل أن يتم تدريبها على بيانات أكثر تخصصاً. كما تسمح النماذج المدربة تدريباً أولياً لمزيد من الأشخاص باستخدام أنظمة ذكاء اصطناعي عالية الأداء؛ إذ إنه بدلاً من الاضطرار إلى تدريب النموذج من الصفر، يمكنهم تكييف نموذج موجود مسبقاً بما يتناسب مع حاجاتهم. على سبيل المثال، قد يتعلم نظام تشخيص الفحوصات الطبية أولاً تحديد الميزات المرئية الأساسية مثل الشكل والمعالم الرئيسية من خلال تدريبه تدريباً أولياً على قاعدة بيانات للأشياء اليومية من قبيل مجموعة إيماج نت التي تحتوي على أكثر من 14 مليون صورة. بعد ذلك يجري ضبط أوزانه بدقة من خلال تدريبه بشكل مستمر على قاعدة بيانات أصغر تضم صوراً طبية إلى أن يصبح قادراً على التعرف على العلامات الدقيقة للمرض.

تكمن المشكلة في الجهد الكبير والوقت الطويل الذي يستغرقه التجميع اليدوي لمجموعة بيانات مثل إيماج نت. وعادةً ما يتم تصنيف الصور بالاعتماد على عمال التعهيد الجماعي ذوي الدخل المنخفض. ومن ناحية أخرى، قد تحتوي مجموعات البيانات على وسوم متحيزة على أساس الجنس أو العرق مما يفضي إلى تحيز النموذج بطرق مخفية. وقد تحتوي أيضاً صوراً لأشخاص تم تضمينهم في مجموعة البيانات دون الحصول على موافقتهم. كما تتوافر أدلة على أن أوجه التحيز هذه قد تتسلل إلى نماذج الذكاء الاصطناعي حتى في مرحلة التدريب الأولي.

أشكال طبيعية

دفع تواجد الأنماط الكُسيرية في كل شيء من حولنا -بدءاً من الأشجار والزهور ووصولاً إلى الغيوم والأمواج- فريقَ الباحثين في المعهد الوطني الياباني للعلوم الصناعية المتقدمة والتكنولوجيا (AIST) ومعهد طوكيو للتكنولوجيا وجامعة طوكيو دينكي إلى التساؤل عما إذا كان من الممكن الاستفادة من هذه الأنماط في تعليم نظام آلي أساسياتِ التعرف على الصور بدلاً من استخدام صور الأشياء الحقيقية.

وهكذا، ابتكر الباحثون فراكتال دي بي (FractalDB)، وهو عدد لا نهائي من الكُسيريات المولَّدة حاسوبياً: بعضها يشبه الأوراق، والبعض الآخر يشبه نُدف الثلج أو القواقع الحلزونية. وقام الباحثون بمنح وسم تلقائي لكل مجموعة من الأنماط المتشابهة، ثم استخدموا فراكتال دي بي لإجراء تدريب أوّلي لشبكة عصبونية ملتفة، وهي إحدى أنواع نماذج التعلم العميق المستخدمة بشكل شائع في أنظمة التعرف على الصور. بعد ذلك أكملوا تدريب الشبكة على مجموعة من الصور الفعلية. وفي المحصلة، وجد الباحثون أن النموذج الجديد حقق أداء يضاهي تقريباً أداء النماذج التي جرى تدريبها على أحدث مجموعات البيانات، بما في ذلك مجموعات إيماج نت وبليسز (Places) التي تحتوي على 2.5 مليون صورة لمشاهد خارجية.

هل الكُسيريات المولدة حاسوبياً وسيلة فعالة حقاً؟

يعبر آن إنجوين من جامعة أوبورن في ألاباما، وهو لم يشارك في الدراسة، عن عدم اقتناعه بأن فراكتال دي بي تشكل نِداً لمجموعات البيانات من أمثال إيماج نت حتى الآن. وكان إنجوين قد أجرى دراسة حول الكيفية التي يمكن بها للأنماط المجردة أن تربك أنظمة التعرف على الصور، ويقول: “هناك علاقة بين هذا البحث والأمثلة التي تخدع الآلات”. وأشار إلى رغبته في استكشاف كيفية عمل هذه الطريقة الجديدة بمزيد من التفصيل. من جهة أخرى، يعتقد الباحثون اليابانيون أنه يمكن من خلال إجراء تعديلات على طريقتهم أن تحل مجموعات البيانات المولدة حاسوبياً مثل فراكتال دي بي محل مجموعات البيانات المستخدمة حالياً.

لماذا تم اختيار الهندسة الكُسيرية لتوليد مجموعات البيانات؟

حاول الباحثون تدريب نظامهم للذكاء الاصطناعي باستخدام صور مجردة أخرى بما في ذلك تلك التي تم إنتاجها باستخدام ضجيج بيرلن (Perlin) التي تخلق أنماطًا مرقطة، ومنحنيات بيزير (Bezier)، وهي نوع من المنحنيات المستخدمة في الرسومات الحاسوبية. لكن الكُسيريات حققت أفضل النتائج، ويقول المؤلف الرئيسي للبحث هيروكاتسو كاتاوكا من المعهد الوطني الياباني للعلوم الصناعية المتقدمة والتكنولوجيا (AIST): “إن الهندسة الكُسيرية حاضرة في نسيج المعرفة حول عالمنا”.