هل يمكن للروبوتات أن تصبح أكثر نفعاً إذا تعلمت من خلال الاستماع؟

تعتمد معظم الروبوتات الحالية التي تعمل بالذكاء الاصطناعي على الكاميرات كي تدرك محيطها وتتعلم مهام جديدة، غير أن تدريب الروبوتات باستخدام الصوت أصبح أسهل من ذي قبل أيضاً، حيث يساعدها على التكيف مع المهام والبيئات التي تكون فيها الرؤية محدودة.

وعلى الرغم من أهمية الرؤية بالنسبة إلى بعض مهامنا اليومية، فإن الصوت أكثر فائدة في الواقع، مثل الاستماع إلى البصل وهو يئزّ على الموقد حتى نعرف إن كانت درجة حرارة المقلاة قد وصلت إلى الحد المناسب. غير أن تدريب الروبوتات باستخدام الصوت لم يكن ممكناً حتى الآن إلا ضمن البيئات المخبرية الخاضعة لدرجة عالية من التحكم، كما أن التقنيات المستخدمة أصبحت متأخرة بالمقارنة مع بعض الأساليب السريعة الأخرى لتعليم الروبوتات.

نظام لجمع البيانات الصوتية

ولهذا؛ قرر الباحثون في مختبر الروبوتات والذكاء الاصطناعي المتجسد (Robotics and Embodied AI Lab) في جامعة ستانفورد العمل على تغيير هذا الوضع. بادر الباحثون أولاً إلى بناء نظام لجمع البيانات الصوتية، وهو يتألف من مقبض (على شكل ملقط) مع مايكروفون مصمم لفلترة الضجيج الخلفي، إضافة إلى كاميرا غو برو (GoPro). استخدم المشتركون البشر في العرض التجريبي المقبض في عدد من المهام المنزلية المتنوعة، واستخدموا هذه البيانات في تدريب الأذرع الروبوتية على تنفيذ المهام بمفردها. أدت خوارزميات التدريب الجديدة التي ابتكرها الفريق إلى مساعدة الروبوتات على جمع المؤشرات من الإشارات الصوتية من أجل تقديم أداء أكثر فعالية.

تقول طالبة الدكتوراة في جامعة ستانفورد والمؤلفة الأساسية للدراسة، زي ليو: "حتى الآن، كانت الروبوتات تتدرب باستخدام مقاطع فيديو صامتة، غير أن الصوت يتضمن الكثير من البيانات المفيدة".

وكي يختبر الباحثون درجة التحسن الإضافية في أداء الروبوتات القادرة على "الاستماع"، اختاروا 4 مهام: تقليب قطعة من الكعك في مقلاة، ومحو سبورة بيضاء، وتثبيت شريطين قماشيين لاصقين (فيلكرو) معاً، ورمي أحجار النرد من كوب. في كل مهمة من المهام الأربع، يوفر الصوت مؤشرات تواجه الكاميرات أو أجهزة استشعار اللمس صعوبة في التقاطها، مثل تحديد إن كانت الممحاة تلامس السبورة البيضاء بصورة مناسبة، أو إن كان الكوب يحتوي على أحجار نرد أم لا.

بعد تجريب كل مهمة بضع مئات من المرات، قارن الفريق معدلات نجاح التدريب مع الاستعانة بالصوت مقابل معدلات نجاح التدريب باستخدام الرؤية فقط. نُشِرت النتائج ضمن ورقة بحثية في موقع أركايف (arXiv)، ولم تخضع حتى الآن إلى مراجعة الأقران، غير أنها واعدة. فعند استخدام الرؤية وحدها في اختبار النرد، تمكن الروبوت من تحديد وضع النرد في الكوب (أي إن كان موجوداً أم لا) بنجاح بنسبة 27%، غير أن هذه النسبة ارتفعت إلى 94% عند الاستعانة أيضاً بالصوت.

الاستماع إلى جانب الرؤية يحقق نتائج واعدة في تدريب الروبوتات

هذه ليست المرة الأولى التي يُستخدم فيها الصوت في تدريب الروبوتات، كما تقول لين، غير أنها خطوة كبيرة نحو استخدام هذه الطريقة على نطاق واسع. وتقول: "نحن نسهّل استخدام الأصوات التي يجري التقاطها ’في العالم الحقيقي‘ بدلاً من الاقتصار على الأصوات التي يجري التقاطها في المختبر، وهي عملية تستغرق وقتاً أطول".

يشير البحث إلى أن الصوت قد يصبح مصدر البيانات المفضل في سباق تدريب الروبوتات باستخدام الذكاء الاصطناعي. وصل الباحثون إلى مستوى غير مسبوق من السرعة في تعليم الروبوتات من خلال استخدام التعلم بالتقليد، حيث يعرضون على الروبوتات مئات الأمثلة على المهام التي يجري تنفيذها بدلاً من برمجة كل مهمة على حدة يدوياً. إذا أصبح من الممكن جمع البيانات الصوتية بكميات كبيرة من خلال أدوات مماثلة لتلك المستخدمة في الدراسة، فقد يؤدي هذا إلى تزويد الروبوتات بـ "حاسة" جديدة تماماً، ويساعدها على التكيف بسرعة أكبر مع البيئات التي تكون الرؤية فيها محدودة أو معدومة كلياً.

الصوت: أكثر وسائل الاستشعار التي لم تخضع للدراسة

يقول الأستاذ المساعد المختص بالروبوتات في جامعة ميشيغان، دميتري بيرينسون، الذي لم يشارك في الدراسة: "يمكن أن نقول إن الصوت يُعَد أكثر وسائل الاستشعار التي لم تخضع للدراسة" في مجال الروبوتات. ويُعزى هذا إلى أن الجزء الأكبر من أبحاث الروبوتات حول التعامل مع الأغراض كان مخصصاً لدراسة المهام الصناعية التي تتضمن التقاط الأغراض ووضعها في مكان محدد، مثل تصنيف الأغراض ووضعها ضمن حاويات وفقاً لأنواعها. لا تعتمد هذه المهام كثيراً على الصوت، بل تعتمد بدلاً من ذلك على المستشعرات اللمسية أو المرئية. لكن مع توسع نطاق مهام الروبوتات لتصل إلى داخل المنازل والمطابخ وغيرها من البيئات، سيصبح الصوت مفيداً بصورة متزايدة، على حد قول بيرينسون.

لنفترض على سبيل المثال أن روبوتاً يحاول العثور على الحقيبة التي تحتوي مجموعة من المفاتيح، في ظروف تتيح قدراً محدوداً من الرؤية. يقول بيرينسون: "قد يُسمع صوت خشخشة المفاتيح حتى قبل لمسها. وهذا يشير إلى أن المفاتيح موجودة في جيب معين، لا في الجيوب الأخرى".

ومع ذلك، ينطوي الصوت على حدود أيضاً، حيث يشير الفريق إلى أن الصوت لن يكون مفيداً إلى هذه الدرجة في حالة الأجسام اللينة أو المرنة مثل الملابس، التي لا تصدر صوتاً يمكن الاعتماد عليه. كما أن الروبوتات تواجه صعوبة في فلترة ضجيج محركاتها الخاصة خلال أداء المهام، نظراً إلى أن هذه الضجة لم يكن لها وجود في بيانات التدريب التي أنتجها البشر. ولمعالجة هذه المشكلة، اضطر الباحثون إلى إضافة أصوات الروبوتات -مثل أصوات الأزيز والدوي وضجيج المشغلات الميكانيكية- إلى مجموعات التدريب، بحيث تتعلم الروبوتات كيفية ضبطها.

تقول ليو إن الخطوة التالية هي معرفة مدى تحسن النماذج عند الحصول على المزيد من البيانات؛ ما قد يعني استخدام عدد أكبر من المايكروفونات، وجمع الصوت المكاني، وإضافة المايكروفونات إلى أنواع أخرى من أجهزة جمع البيانات.