شاهد هذا الكلب الروبوتي الذي تمكن من تعلم المشي بنفسه

شاهد كلب روبوتي تمكن من تعلم المشي بنفسه

DANIJAR.COM

استمع الى المقالة الآن هذه الخدمة تجريبية

كان الكلب الروبوتي يلوح بقوائمه في الهواء، كما لو أنه خنفساء غاضبة. ولكن، وبعد عشر دقائق من المحاولات، تمكن من أن ينقلب عائداً إلى الوضع الطبيعي. وبعد نصف ساعة، تمكن الروبوت من أن يخطو أولى خطواته المتعثرة، وكأنه عجل حديث الولادة. ولكن، بعد ساعة واحدة، أصبح الروبوت قادراً على التنقل في أرجاء المختبر بكل ثقة.

ما يميز هذا الروبوت رباعي القوائم هو أنه تعلم كل هذا بنفسه، من دون أي توجيهات حول ما يجب فعله في محاكاة حاسوبية.

استخدام التعلم المعزز

فقد استخدم دانيجار هافنر وزملاؤه في جامعة كاليفورنيا، بيركلي، تقنية تُعرف باسم التعلم المعزز في الذكاء الاصطناعي، حيث يتم تدريب الخوارزمية بمكافأتها على الأفعال المطلوبة، وذلك لتدريب الروبوتات على المشي في العالم الحقيقي بدءاً من الصفر. نجح الفريق في استخدام نفس الخوارزمية لتدريب ثلاثة روبوتات أخرى، مثل روبوت تمكن من التقاط مجموعة من الكرات وتحريكها من صينية إلى أخرى.

عادة ما يتم تدريب الروبوتات ضمن برنامج حاسوبي للمحاكاة قبل أن تحاول فعل أي شيء في العالم الحقيقي. وعلى سبيل المثال، فقد تعلم روبوت ثنائي الساقين يحمل اسم كاسي كيفية المشي باستخدام التعلم المعزز، ولكن بعد أن حقق نفس الشيء ضمن عملية محاكاة.

“تكمن المشكلة في أن برنامج المحاكاة لن يكون دقيقاً بما يكفي لمحاكاة العالم الحقيقي. وستكون هناك على الدوام جوانب مفقودة من عملية المحاكاة”، كما يقول هافنر، والذي عمل مع زميليه أليخاندرو إسكونتريلا وفيليب وو على المشروع، ويعمل الآن كمتدرب في ديب مايند (DeepMind). ويضيف قائلاً إن تعديل الدروس المستقاة من المحاكاة لتكييفها مع العالم الحقيقي يتطلب عملاً هندسياً إضافياً.

خوارزمية دريمر

تحمل خوارزمية الفريق اسم دريمر، وتعتمد على التجارب السابقة لبناء نموذج للعالم المحيط. كما تتيح دريمر أيضاً للروبوت إمكانية إجراء حسابات التجربة والخطأ في برنامج حاسوبي بدلاً من العالم الحقيقي، وذلك بتوقع النتائج المستقبلية الممكنة لجميع الأفعال المحتملة التي يمكنه تنفيذها. وهو ما يسمح بالتعلم بسرعة أكبر، مقارنة بالتعلم فقط عن طريق الفعل. بعد أن تعلم الروبوت كيفية المشي، واصل عملية التعلم للتكيف مع الأوضاع غير المتوقعة، مثل مقاومة محاولة قلبه باستخدام عصا.

يقول الأستاذ المساعد في مجال علوم الحاسوب في جامعة نيويورك، والمختص بالروبوتات والتعلم الآلي، ليريل بينتو: “يمثل تعليم الروبوتات عن طريق التجربة والخطأ مسألة صعبة، وتزيد الصعوبة بسبب وقت التدريب الطويل الذي تتطلبه طريقة كهذه”. تبين دريمر أن التعلم العميق المعزز ونماذج العالم يمكن أن تعلم الروبوتات مهارات جديدة في أوقات قصيرة للغاية، كما يقول.

أما أستاذ الروبوتات في جامعة أوريغون الحكومية، جوناثان هيرست، فيقول إن النتائج، والتي لم تخضع حتى الآن للتحكيم العلمي، تبين بشكل واضح أن “التعلم المعزز سيكون أداة جوهرية في مستقبل التحكم في الروبوتات”.

إن التخلي عن المحاكاة في تعليم الروبوتات يحمل العديد من المزايا. فقد تكون الخوارزمية مفيدة في تعليم الروبوتات كيفية تعلم مهارات جديدة في العالم الحقيقي والتكيف مع أوضاع مثل فشل التجهيزات والقطع الآلية، كما يقول هافنر. وعلى سبيل المثال، يمكن للروبوت أن يتعلم المشي بوجود محرك معطل في أحد قوائمه.

يمكن لهذه المقاربة أن تؤدي إلى نتائج مهمة بالنسبة للأنظمة الأكثر تعقيداً، مثل السيارات ذاتية التحكم، والتي تتطلب أنظمة محاكاة معقدة وباهظة التكاليف، كما يقول الأستاذ المساعد في مجال الذكاء الاصطناعي في جامعة إدنبرة، ستيفانو أولبريخت. ويضيف أولبريخت قائلاً إن جيلاً جديداً من خوارزميات التعلم المعزز يمكن “أن يستوعب كيفية عمل البيئة المحيطة في العالم الحقيقي بسرعة فائقة”.

عقبات تواجه الخوارزمية

ولكن ما زالت هناك بعض المشكلات المستعصية، كما يقول بينتو.

ففي التعلم المعزز، يجب على المهندسين صياغة التعليمات بدقة ضمن نصوصهم البرمجية لتحديد السلوكيات الجيدة والتي يجب أن تُكافأ، والسلوكيات غير المرغوبة. وفي هذه الحالة، فإن الانقلاب للعودة إلى الوضع الصحيح والمشي أمران جيدان، على حين يُعتبر عدم المشي أمراً سيئاً. يقول بينتو: “يتوجب على مختص الروبوتات القيام بهذه العملية لكل مهمة أو مشكلة يريد من الروبوت التعامل معها”. وهو عمل يستغرق وقتاً طويلاً، كما أنه من الصعب برمجة التصرفات في أوضاع غير متوقعة.

ويقول أولبريخت إن أنظمة المحاكاة قد لا تكون دقيقة، ولكن النماذج التي تمثل العالم قد لا تكون دقيقة أيضاً. ويقول: “تبدأ نماذج العالم من الصفر، وبالتالي فإن التوقعات الأولية المستقاة من النموذج ستكون عشوائية وخاطئة تماماً”. ويتطلب الحصول على ما يكفي من البيانات لزيادة دقتها إلى المستوى المطلوب وقتاً طويلاً.

ويقول هافنر إنه سيكون من الرائع تعليم الروبوت فهم الأوامر الصوتية في المستقبل. ويضيف قائلاً إن الفريق يريد أيضاً تزويد الكلب الروبوتي بكاميرات لمنحه القدرة على الرؤية. وهو ما سيتيح له تنفيذ مناورات متعددة في البيئات الداخلية المعقدة، مثل المشي باتجاه غرفة معينة أو العثور على غرض ما، بل وحتى اللعب مثل الكلب الحقيقي!