ريترو: نموذج لغوي جديد من ديب مايند يستطيع التفوق على نماذج تفوقه حجماً

حقوق الصورة: ميس تيك/ غيتي إيميدجيز.

استمع الى المقالة الآن هذه الخدمة تجريبية

في السنتين اللتين تلتا إطلاق “أوبن إيه آي” (OpenAI) لنموذجها اللغوي جي بي تي 3، قامت معظم مختبرات الذكاء الاصطناعي الشهيرة بتطوير نماذج محاكاة لغوية خاصة بها. وقد قامت “جوجل” (Google) و”فيسبوك” (Facebook) و”مايكروسوفت” (Microsoft)، إضافة إلى مجموعة من الشركات الصينية، ببناء أنظمة ذكاء اصطناعي قادرة على توليد نصوص مقنعة الإتقان، والدردشة مع البشر، والإجابة عن الأسئلة، وغير ذلك.

تُعرف هذه الأنظمة باسم النماذج اللغوية الكبيرة، بسبب الحجم الهائل للشبكات العصبونية التي تعتمد عليها، وقد تحولت إلى أحد أهم التوجهات السائدة في الذكاء الاصطناعي، مستعرضة نقاط قوتها، أي القدرة اللغوية المذهلة التي تمنحها للآلات، ونقاط ضعفها، خصوصاً التحيزات المتأصلة فيها وحاجتها إلى قدرات حوسبة هائلة غير مستدامة.

غياب ملفت للنظر لديب مايند.. لكنّ الحضور كان فريداً

وحتى الآن، كان غياب “ديب مايند” (DeepMind) عن هذا المجال ملفتاً للنظر. ولكن الشركة التي تعمل في بريطانيا، والتي قدمت بعضاً من أهم الإنجازات في الذكاء الاصطناعي، بما فيها ألفا زيرو وألفا فولد، انضمت أخيراً إلى هذا الحل بإطلاق 3 دراسات جديدة حول النماذج اللغوية الكبيرة في يوم واحد. أما النتيجة الأساسية التي توصلت إليها ديب مايند فهي عبارة عن نظام ذكاء اصطناعي مع لمسة مميزة: فهو معزز بذاكرة خارجية على شكل قاعدة بيانات ضخمة من المقاطع النصية، ويستخدمها النظام عند توليد جمل جديدة بشكل أشبه بورقة الغش في الامتحان.

يحمل النظام اسم «ريترو» (RETRO) اختصاراً لعبارة “محول الاسترجاع المحسّن”، وهو يضاهي في أدائه الشبكات العصبونية التي تعادل بحجمها 25 ضعفاً من حجمه، ما يقلل من الوقت والتكاليف المطلوبين لتدريب النماذج فائقة الضخامة. يقول الباحثون أيضاً إن قاعدة البيانات تسهل من تحليل ما تعلمه الذكاء الاصطناعي، وهو ما يمكن أن يساعد على التخلص من التحيز واللغة المسيئة.

يقول جاك راي من ديب مايند، والذي يقود الأبحاث اللغوية في الشركة: “إن القدرة على البحث السريع بدلاً من تذكر كل شيء يمكن أن تكون مفيدة في أغلب الأحيان، كما هو الحال بالنسبة للبشر”.

تقوم النماذج اللغوية بتوليد النصوص بتوقع الكلمات التي سترد تالياً في جملة أو حوار. وكلما ازداد حجم النموذج، أصبح قادراً على اكتساب معلومات أكثر حول العالم أثناء التدريب، ما يجعل توقعاته أفضل. يوجد في جي بي تي 3 ما يصل إلى 175 مليار معامل، وهي القيم التي تخزن البيانات في الشبكة العصبونية، والتي يتم تعديلها خلال عملية التعلم. ويوجد في نموذج ميغاترون – تيورينغ لمايكروسوفت 530 مليار معامل. ولكن تدريب النماذج الضخمة يتطلب أيضاً مقداراً هائلاً من استطاعة الحوسبة، ما يجعلها في متناول المنظمات الأكثر ثراء وحسب.

ومع ريترو، حاولت ديب مايند تقليل تكاليف التدريب دون التقليل من فعالية عملية التعليم، فقد قام الباحثون بتدريب النموذج على مجموعة بيانات هائلة من المقالات الجديدة، وصفحات ويكيبيديا، ونصوص من موقع غيت هاب، وهو مخزن على الإنترنت للرموز البرمجية. وتحتوي مجموعة البيانات نصوصاً بعشر لغات، بما فيها الإنجليزية، والإسبانية، والألمانية، والفرنسية، والروسية، والصينية، والسواحيلية، والأردو.

أما شبكة ريترو العصبونية فتحتوي فقط على 7 مليار معامل. ولكن النظام يعوض عن هذا بقاعدة بيانات تحتوي على ما يقارب 2 تريليون من النصوص. ويتم تدريب الشبكة العصبونية وقاعدة البيانات في نفس الوقت.

وعندما يقوم ريترو بتوليد النصوص، يعتمد على قاعدة البيانات للبحث عن النصوص المشابهة للنص الذي يؤلفه ومقارنتها به، ما يجعل عملية التوقع أكثر دقة. إن إسناد جزء من ذاكرة الشبكة العصبونية إلى قاعدة البيانات يسمح لريترو بتحقيق نتائج أفضل بموارد أقل.

ليست الفكرة جديدة، ولكنها المرة الأولى التي طُوِّر فيها نظام بحث لنموذج لغوي كبير، والمرة الأولى التي تبين فيها أن هذه المقاربة يمكن أن تنتج أداء يضاهي أفضل أنظمة الذكاء الاصطناعي اللغوية الموجودة حالياً.

ريترو يثبت أن الأكبر ليس الأفضل دائماً

يعتمد ريترو على دراستين مرافقتين نشرتهما ديب مايند، تبحث إحداهما في تأثير حجم النموذج على أدائه، وتدرس الأخرى الآثار السلبية المحتملة لهذه الأنظمة.

ولدراسة الحجم، قامت ديب مايند ببناء نموذج لغوي كبير باسم غوفر، مع 280 مليار معامل. وقد تمكن هذا النموذج من التغلب على أحدث النماذج في 82% من التحديات اللغوية الشائعة المستخدمة في الاختبارات، والتي يتجاوز عددها 150. بعد ذلك، قام الباحثون بمقارنة أدائه مع أداء ريترو، ووجدوا أن النموذج الذي يتضمن 7 مليار معامل يضاهي أداء غوفر في معظم المهام.

أما دراسة الأخلاقيات فهي عبارة عن مسح شامل للمشاكل المعروفة والمتأصلة في النماذج اللغوية الكبيرة. فهذه النماذج تلتقط العديد من السلبيات من المقالات والكتب التي تدربت عليها، مثل التحيزات، والمعلومات المزيفة، واللغة المسيئة مثل خطاب الكراهية. ولهذا، فإنها تطلق في بعض الأحيان عبارات مؤذية، حيث تعكس دون تفكير ما رأته في نصوص التدريب دون معرفة معناه. يقول راي: “حتى النموذج الذي يقلد البيانات بصورة مثالية سيكون متحيزاً”.

ووفقاً لديب مايند، يمكن لريترو أن يساعد على التعامل مع هذه المسألة، لأن رؤية ما تعلمه النظام بتفحص قاعدة البيانات أكثر سهولة من دراسة الشبكة العصبونية. ومن الناحية النظرية، يمكن أن يسمح هذا بفلترة وإزالة أمثلة اللغة المؤذية، أو موازنتها مع أمثلة أخرى غير مؤذية. ولكن ديب مايند لم تختبر هذه الفرضية بعد. تقول لورا وايدنغر، وهي عالمة باحثة في ديب مايند: “إن هذه المشكلة لم تُحل بالكامل، وما زال العمل جارياً على مواجهة هذه المشاكل”.

أيضاً، يمكن تحديث قاعدة البيانات دون إعادة تدريب الشبكة العصبونية. وهذا يعني أن المعلومات الجديدة، مثل اسم الفائز في مسابقة رياضية ما، يمكن أن تُضاف بسرعة، كما يمكن حذف المعلومات القديمة أو الخاطئة.

إن الأنظمة المشابهة لريترو أكثر شفافية من نماذج الصندوق الأسود مثل جي بي تي 3، كما يقول ديفيندرا ساتشان، وهو طالب دكتوراه في جامعة ماكغيل في كندا. ويضيف: “ولكن هذا لن يضمن منع اللغة المسيئة أو التحيز”. قام ساتشان بتطوير نظام سابق مشابه لريترو في عمل مشترك سابق مع ديب مايند، ولكنه لم يشارك في العمل الحالي.

وبالنسبة لساتشان، فإن إصلاح السلوك المسيء للنماذج اللغوية يتطلب فحصاً دقيقاً لبيانات التدريب قبل بدء التدريب. وعلى أي حال، فإن الأنظمة المشابهة لريترو قد تقدم بعض المساعدة. حيث يقول ساتشان: “من الأسهل تطبيق هذه الضوابط عندما يستفيد النموذج من بيانات خارجية في عملية التوقع”.

قد تكون مشاركة ديب مايند في هذا الجدل متأخرة. ولكن، وبدلاً من القفز على أعمال الآخرين، فإنها تنافسها بتقديم مقاربة مختلفة. يقول ساتشان: “هذا هو مستقبل النماذج اللغوية الكبيرة“.