تحدي المانيكان القديم يُستخدم الآن في تدريب الذكاء الاصطناعي

عد بذاكرتك عن الإنترنت إلى العام 2016. هل تتذكر بعض الأشياء عن تحدي المانيكان؟ حسناً، يتم الآن استخدام تلك الصيحة التي انتشرت على يوتيوب بشكل سريع في ذلك العام لتدريب شبكة عصبونية على فهم المشاهد ثلاثية الأبعاد.

خلفية الخبر

نحن نجيد بشكل طبيعي تفسير الفيديوهات ثنائية الأبعاد على أنها مشاهد ثلاثية الأبعاد، لكن الآلات تتطلب تعليمها كيفية القيام بذلك. ومن المفيد امتلاك مثل هذه المهارة؛ حيث إن القدرة على إعادة بناء العمق (البعد الثالث)، وترتيب الأغراض المتحركة بحرّية، يمكنه أن يساعد الروبوتات على المناورة في بيئات غير مألوفة. وهذا هو السبب في أن التحدي قد أسر اهتمام الباحثين في مجال الرؤية الحاسوبية لفترة طويلة، خاصة في مجال السيارات ذاتية القيادة.

مصدر الفيديو: نيكسوس | يوتيوب

البيانات

لمعالجة هذه المشكلة، لجأ فريق بقسم الذكاء الاصطناعي في جوجل (جوجل إيه آي) إلى مجموعة غير متوقعة من البيانات: (الآلاف من فيديوهات يوتيوب عن أناس يؤدون تحدي المانيكان). إذا صادف أنك قد فوتّ مشاهدة أي منها في ذلك العام، فإن هذا التحدي ينطوي على الوقوف بثبات قدر الإمكان بينما يقوم شخص ما يتحرك من حولك بتصوير وضعيتك من جميع الزوايا. وتعد هذه الفيديوهات أيضاً مصدراً جديداً للبيانات لفهم العمق في الصور ثنائية الأبعاد.

الطريقة

قام الباحثون بتحويل 2,000 مقطع من مقاطع الفيديو إلى صور ثنائية الأبعاد، بجانب بيانات عالية الدقة عن العمق، وقاموا باستخدام ذلك لتدريب شبكة عصبونية.

ومن ثم استطاعت هذه الشبكة العصبونية أن تتنبأ بعمق الأشياء المتحركة التي تظهر في مقاطع الفيديو بدقة أعلى بكثير مما أمكن تحقيقه باستخدام أحدث الأساليب السابقة. وفي الأسبوع الثالث من يونيو، نال الفريق إشادة تكريمية لتقديمه أفضل ورقة بحثية في واحد من أبرز المؤتمرات في مجال الرؤية الحاسوبية.

مشاركون لا علم لهم

كما أن الباحثين أصدروا أيضاً مجموعة البيانات الخاصة بهم لدعم الأبحاث المستقبلية، مما يعني أن الآلاف من الأشخاص الذين شاركوا في تحدي المانيكان -ومن دون علمهم- سيواصلون المساهمة في تطوير الرؤية الحاسوبية، وأبحاث الروبوتيات.

في حين أن ذلك قد يشكل مفاجأة غير مريحة للبعض، إلا أن هذه هي القاعدة المتبعة في أبحاث الذكاء الاصطناعي وليست استثناء.

إن العديد من مجموعات البيانات ذات الأهمية الكبرى في هذا المجال -بما في ذلك قاعدة البيانات من البروفيسورة "في في لي" التي تعرف باسم إميج نت والتي أُسست لانطلاق ثورة التعلم الآلي- تم تجميعها من البيانات المتاحة للعموم، بعد الحصول عليها من كل من تويتر وويكيبيديا وفليكر، وغيرها من المصادر.

وإن ما يشجع على هذه الطريقة في العمل هو الكميات الهائلة من البيانات اللازمة لتدريب خوارزميات التعلم العميق، ولم تزدد صعوبة هذا الأسلوب إلا في السنوات الأخيرة؛ حيث يولد الباحثون نماذج أكبر من أي وقت مضى لتحقيق نتائج مذهلة.

خصوصية البيانات

كما تحدثنا في مقالات سابقة، فإنه من الواضح أن أسلوب مسح البيانات ليس بالعمل الجيد، ولا بالعمل السيئ أيضاً، لكنه يستدعي التشكيك في المعايير الناظمة التي تحيط بقبولها في هذا المجال. ونظراً لأن البيانات تتحول إلى سلعة رابحة وإلى مبالغ نقدية على نحو متزايد، فيجدر بأخصائيي التكنولوجيا أن يفكروا فيما إذا كانت طريقة استخدامهم لبيانات شخص ما تنسجم مع جوهر السؤال التالي: لماذا تم إنتاجها ومشاركتها أساساً؟