أسلوبان مختلفان في الذكاء الاصطناعي يعملان معاً لتمكين الآلات من فهم العالم مثل الأطفال

2 دقائق
صورة من متعلم المفاهيم العصبوني الرمزي: تفسير المشاهد والكلمات والجمل من الإشراف الطبيعي. تعديل الصورة: إم آي تي تكنولوجي ريفيو
استمع الى المقالة الآن هذه الخدمة تجريبية
Play Audio Pause Audio

على مدى العقود التي تلت ظهور فكرة الذكاء الاصطناعي، تفرع البحث في هذا المجال إلى فرعين رئيسيين. فمن جهة، سعى “الرمزيّون” إلى بناء آلات ذكية عبر كتابة تعليمات برمجية تحوي قواعد ونماذج منطقية للعالم؛ أما “العصبونيون” فقد سعوا من جهة أخرى، إلى بناء الذكاء الاصطناعي عن طريق الشبكات العصبونية المستوحاة من علم الأحياء للتعلم عن العالم. وعبر التاريخ، اتصفت العلاقة بين المجموعتين بالجفاء.

غير أن بحثاً جديداً من إم آي تي وآي بي إم وديب مايند يبيّن فعالية الجمع بين الطريقتين، وربما يفتح اتجاهاً للتقدم في هذا المجال. فقد قام الفريق الذي يقوده البروفيسور جوش تينينبوم من مركز الأدمغة والعقول والآلات في إم آي تي بتصميم برنامج حاسوبي يسمى متعلم المفاهيم العصبوني الرمزي NS-CL الذي يتعلم عن العالم (أو نسخة بسيطة من العالم) تماماً مثل الأطفال، أي بالاعتماد على رؤية ما حولهم والكلام.

يتألف النظام من عدة أجزاء. حيث يتم تدريب شبكة عصبونية على مجموعة من المشاهد المكونة من عدد صغير من الأجسام، ويتم تدريب شبكة أخرى على مجموعة من أزواج الأسئلة والأجوبة النصية حول المشهد، مثل: “سؤال: ما لون الكرة؟ جواب: أحمر”. تتعلم هذه الشبكة كيفية إسقاط أسئلة اللغة الطبيعية على برنامج بسيط يمكنه أن يستخلص جواباً من مشهد.

تمت برمجة النظام أيضاً حتى يستوعب المفاهيم الرمزية في النص مثل “أجسام” و”خصائص أجسام” و”علاقة مكانية”. وتساعد هذه المعرفة النظام على الإجابة عن أسئلة جديدة حول مشهد مختلف، وهو إنجاز أكثر صعوبة باستخدام الطريقة العصبونية لوحدها، ولهذا يتعرف النظام على المفاهيم في الأسئلة الجديدة، ويستطيع أن يربطها مرئياً بالمشهد أمامه.

يقول بريندان ليك، وهو بروفيسور مساعد في جامعة نيويورك: “إنها طريقة مثيرة للاهتمام. حيث يستطيع النظام أن يرى بفضل إمكانية التعرف على الأنماط للشبكات العصبونية، في حين تسمح له البرمجة الرمزية بالفهم والاستيعاب. وبفضل الناحيتين، يستطيع النظام أن يتجاوز قدرات أنظمة التعلم العميق الحالية”. أي أن النظام الهجين يعالج مشاكل كلتا الطريقتين المنفردتين بالجمع بينهما، فيتغلب على مشكلة توسيع النظام الرمزي الذي لطالما عانى من صعوبة ترميز تعقيدات المعرفة البشرية بطريقة فعالة، ويتغلب أيضاً على أكثر مشاكل الشبكات العصبونية شيوعاً، وهي حاجتها إلى كميات ضخمة من البيانات.

من الممكن طبعاً أن ندرب شبكة عصبونية فقط على الإجابة عن الأسئلة حول المشهد عن طريق تلقيمها بعدة ملايين من الأمثلة كبيانات تدريبية. ولكن الطفل البشري لا يتطلب كل هذه البيانات حتى يفهم ماهية جسم جديد أو علاقته بغيره من الأجسام. إضافة إلى ذلك، فإن الشبكة العصبونية المدربة بهذه الطريقة لا تستوعب أياً من المفاهيم المطلوبة، بل يقتصر عملها على التعرف على الأنماط فقط. ولهذا السبب قد يكون نظام كهذا عرضة لارتكاب أخطاء بالغة الحماقة عند مواجهة سيناريوهات جديدة، وهي مشكلة شائعة في الشبكات العصبونية الحالية، وتبين نقاط ضعفها المكشوفة بسهولة (اقرأ “مشكلة اللغة لدى الذكاء الاصطناعي“).

قد يعترض مناصرو العصبونية على كون النظام يتطلب برمجة بعض المعرفة داخله. ولكن هذا العمل هام، لأنه يقربنا بعض الشيء من الشكل الهندسي من الذكاء الذي يبدو أشبه بذكائنا. ويعتقد علماء الإدراك أن العقل البشري يعمل بطريقة مشابهة، وأن هذا هو أساس المرونة البشرية في التعلم.

قد يعني هذا العمل أيضاً، من الناحية العملية، تطبيقات جديدة للذكاء الاصطناعي، لأن هذه التكنولوجيا الجديدة تتطلب مقداراً أقل من بيانات التدريب. فقد تتمكن الأنظمة الروبوتية أخيراً من التعلم بسرعة، بدلاً من إمضاء وقت طويل وهي تتدرب على كل بيئة جديدة توضع فيها.

يقول ديفيد كوكس، العالِم الذي يترأس مختبر واتسون المشترك بين إم آي تي وآي بي إم للذكاء الاصطناعي: “إن هذه النتيجة مثيرة للحماس، لأنها ستمكننا من تقليل الاعتماد على الكميات الضخمة من البيانات المصنفة”.

يعمل الباحثون الذين نشروا هذه الدراسة حالياً على تطوير نسخة جديدة تعمل على صور مشاهد حقيقية، وقد يكون هذا مفيداً للكثير من التطبيقات العملية في الرؤية الحاسوبية.