Article image
مصدر الصورة: أوبن إيه آي



قام مختبر أوبن إيه آي بتوسيع نطاق المولّد اللغوي جي بي تي 3، بنموذجين جديدين يدمجان معالجة اللغات الطبيعية بتقنية التعرف على الصور.

2021-01-11 18:12:38

11 يناير 2021

أثبت مختبر “أوبن إيه آي”، من خلال نموذج جي بي تي 3، أنه يمكن تدريب نموذج تعلم عميق واحد على استخدام اللغة بعدة طرق متنوعة، وذلك ببساطة عن طريق تلقيمه بكميات هائلة من النصوص. ثم أثبت أنه من الممكن، من خلال تبديل النصوص بالبكسلات، استخدام نفس النهج لتدريب نظام الذكاء الاصطناعي على إكمال الصور نصف المكتملة. وفي حين يحاكي جي بي تي 3 الطريقة التي يستخدم بها البشر الكلمات، يتوقع “جي بي تي 3 المُصور” ما نراه.

والآن جمع أوبن إيه آي هاتين الفكرتين معاً ليُنشئ نموذجين جديدين، هما دال.إي (DALL·E) وكليب (CLIP)، اللذَين يدمجان اللغة والصور بطريقة تمنح أنظمة الذكاء الاصطناعي فهماً أفضل، ليس فقط للكلمات وإنما لما تشير إليه هذه الكلمات أيضاً.

ويقول إيليا سوتسكيفر، كبير العلماء في أوبن إيه آي: “إننا نعيش في عالم مرئي، وعلى المدى البعيد سيكون لدينا نماذج تفهم كلاً من النصوص والصور. وسيكون الذكاء الاصطناعي قادراً على فهم اللغة بشكل أفضل، لأنه يستطيع رؤية ما تعنيه الكلمات والجمل”.

على الرغم من كل المواهب التي يتمتع بها جي بي تي 3، إلا أنك قد تشعر أن مخرجاته منفصلة عن الواقع كما لو أنه لا يعرف ما الذي يتحدث عنه، وهو ما يرجع إلى أنه بالفعل لا يعرف. لذا، فمن خلال ربط النصوص بالصور، يحاول الباحثون في أوبن إيه آي -وغيرها من الأماكن- منحَ النماذج اللغوية فهماً أفضل للمفاهيم اليومية التي يستخدمها البشر لإعطاء معنى للأشياء.

يسعى كلاً من “دال.إي” و”كليب” لحل هذه المشكلة من اتجاهات مختلفة. وللوهلة الأولى، يبدو “كليب” (وهو اختصار لعبارة “التدريب اللغوي-التصويري المُسبق المقارن”) كأنه مجرد نظام آخر للتعرف على الصور، بيد أنه لم يتعلم التعرف على الصور من خلال الأمثلة المصنفة في مجموعات البيانات المنسقة -كما تفعل معظم النماذج الحالية- وإنما من خلال الصور الموجودة على الإنترنت والتعليقات التوضيحية الخاصة بها؛ فهو يتعلم ما يوجد داخل الصورة من خلال الوصف، بدلاً من أن يتعلم من خلال وسم مكون من كلمة واحدة مثل “قطة” أو “موزة”.

يتم تدريب “كليب” من خلال جعله يتوقع التعليق التوضيحي الصحيح لصورة معينة، وذلك من بين مجموعة اختيارات عشوائية مكونة من 32,768 تعليقاً توضيحياً. ولكي يتمكن من تحقيق ذلك، يتعلم “كليب” ربطَ طائفة واسعة من الأشياء بأسمائها والكلمات التي تصفها، وهو ما يتيح له بعد ذلك التعرف على هذه الأشياء في صور من خارج مجموعة التدريب الخاصة به. ويتم تدريب معظم أنظمة التعرف على الصور لكي تتمكن من التعرف على أنواع معينة من الأشياء، مثل الوجوه التي تظهر في أشرطة المراقبة أو المباني التي تظهر في صور الأقمار الصناعية. وعلى غرار جي بي تي 3، يمكن أن يُعمم “كليب” المهامَ دون الحصول على تدريب إضافي. كما أنه أقل عرضة من نماذج التعرف على الصور الحديثة الأخرى للتضليل بواسطة “الأمثلة المعادية”، التي تم تعديلها بشكل طفيف بطرق عادةً ما تربك الخوارزميات، على الرغم من أن البشر قد لا يلاحظون فيها اختلافاً.

وبدلاً من التعرف على الصور، يُمكن لنموذج “دال.إي” (الذي أظن أن اسمه عبارة عن تلاعب لفظي بكلمتي وول-ي “WALL·E” ودالي “Dali”) أن يرسمها. ويُعد هذا النموذج نسخة أصغر حجماً من جي بي تي 3، وقد تم تدريبه أيضاً على أزواج من الصور النصية المأخوذة من الإنترنت. وعند إعطائه تعليقاً توضيحياً قصيراً باللغة الطبيعية -مثل “لوحة لحيوان يجلس في حقل عند شروق الشمس” أو “صورة مقطع عرضي لثمرة جوز”- فإن “دال.إي” يولد الكثير من الصور التي تتطابق مع هذا التعليق: العشرات من هذا الحيوان من مختلف الأشكال والأحجام أمام خلفيات برتقالية وصفراء، وصفوف من ثمار الجوز (وإن لم تكن جميعها ذات مقطع عرضي).

التحول إلى السريالية

كانت النتائج ملفتة للنظر رغم أنها لا تزال حافلة بالتباينات؛ فالتعليق التوضيحي “نافذة زجاجية ملونة بها صورة فراولة زرقاء” يُنتج الكثير من النتائج الصحيحة، لكن بعضها يحتوي أيضاً على نوافذ زرقاء وفراولة حمراء، والبعض الآخر لا يحتوي على أي شيء يشبه النافذة أو الفراولة. ولم يتم اختيار النتائج، التي عرضها فريق أوبن إيه آي في منشور بمدونة خاصة بالشركة، يدوياً وبطريقة انتقائية، وإنما تم ترتيبها بواسطة نموذج “كليب” الذي اختار 32 صورة من الصور التي رسمها “دال.إي” لكل تعليق يعتقد أنه أفضل ما يتطابق مع الوصف.

ويقول مارك ريدل، الذي يعمل في مجال معالجة اللغات الطبيعية والإبداع الحاسوبي في معهد جورجيا للتكنولوجيا في أتلانتا: “يشكل تحويل النصوص إلى صور تحدياً بحثياً مستمراً منذ فترة، إلا أن هذه مجموعة مذهلة من الأمثلة”.

ثمرة فجل ترتدي تنورة وتصطحب كلباً

مجموعة من الصور التي رسمها نموذج “دال.إي” للتعبير عن التعليق التوضيحي التالي: “ثمرة فجل أبيض صغيرة ترتدي تنورة قصيرة وتصطحب كلباً”.

ولاختبار قدرة “دال.إي” على التعامل مع مفاهيم جديدة، قدم له الباحثون تعليقات توضيحية تصف أشياء يعتقدون أنه لم يرها من قبل، مثل “كرسي أفوكادو ذو مسند” و”رسمة تصور ثمرة فجل أبيض صغيرة ترتدي تنورة قصيرة وتصطحب كلباً”. وفي كلتا الحالتين، ولّد الذكاء الاصطناعي صوراً جمعت بين هذه المفاهيم بطرق معقولة.

تبدو جميع الكراسي ذات المسند التي رسمها النموذج وكأنها كراسي وثمار أفوكادو حقيقية. ويقول أديتيا راميش، الذي يعمل على تطوير “دال.إي”: “إن أكثر ما أدهشني هو أن النموذج يمكنه أن يجمع بين مفهومين لا تربط بينهما أي علاقة، بطريقة تنتج في النهاية شيئاً يبدو عملياً نوعاً ما”. وربما يكون السبب في ذلك هو أن ثمرة الأفوكادو المقسومة تشبه إلى حد ما الكرسي عالي الظهر ذا المسند، في حين تبدو نواتها أشبه بالوسادة. أما بالنسبة للتعليقات التوضيحية الأخرى، مثل “حلزون مصنوع من قيثارة”، فقد كانت النتائج أقل جودة؛ حيث رسم النموذج صوراً تجمع بين الحلزونات والقيثارات بطرق غريبة.

و”دال.إي” هو ذلك النوع من الأنظمة التي يتصور ريدل إمكانية إخضاعها لاختبار لوفليس 2.0 (Lovelace 2.0)، وهي تجربة ذهنية توصل إليها عام 2014. والغرض من هذا الاختبار هو الاستبدال باختبار تورنغ كمعيار لقياس الذكاء الاصطناعي، حيث يفترض أن إحدى علامات الذكاء هي القدرة على مزج المفاهيم بطرق إبداعية. ويشير ريدل إلى أن مطالبة الحاسوب برسم صورة لرجل يحمل بطريقاً هو اختبار أفضل للذكاء من مطالبة روبوت الدردشة بخداع إنسان أثناء المحادثة؛ لأنه اختبار مفتوح بشكل أكبر وأصعب في الغش.

ويقول ريدل إن “الاختبار الحقيقي هو معرفة إلى أي مدى يمكن دفع الذكاء الاصطناعي خارج منطقة الراحة الخاصة به”.

حلزون مصنوع من قيثارة

مجموعة من الصور التي رسمها نموذج “دال.إي” للتعبير عن التعليق التوضيحي التالي: “حلزون مصنوع من قيثارة”.

يقول آني كيمبهافي من معهد آلين للذكاء الاصطناعي (AI2)، الذي طور بدوره نظاماً يولّد الصور من النصوص: “إن قدرة النموذج على توليد صور تركيبية من نصوص غريبة تبدو مثيرة للغاية بالنسبة لي. ويبدو أن النتائج تعبر عن دلالات الألفاظ المطلوبة، وهو ما أعتقد أنه أمر مثير للإعجاب”. كما أعرب جايمين تشو -زميل كيمبهافي- أيضاً عن إعجابه بالصور قائلاً: “إن مولّدات تحويل النصوص إلى صور الموجودة حالياً لم تُظهر هذا القدر من التحكم عند رسم أشياء متعددة، ولا تتمتع بنفس القدرات التي أبداها “دال.إي” في فهم المنطق المكاني”.

وبالرغم من ذلك، فإن علامات الإجهاد تظهر بالفعل على “دال.إي”، حيث يؤدي إدراج عدد كبير جداً من الأشياء في التعليق التوضيحي المقدم له إلى استنفاذ قدرته على متابعة ما الذي يتوجب عليه رسمه. كما أن إعادة صياغة التعليق التوضيحي بكلمات تؤدي نفس المعنى تسفر في بعض الأحيان عن نتائج مختلفة. وهناك أيضاً علامات على أن “دال.إي” يحاكي الصور التي صادفها على الإنترنت بدلاً من توليد صور جديدة.

يقول ريدل: “أنا متشكك إلى حد ما في المثال الخاص بالفجل الأبيض، الذي يدل أسلوبه على أن النموذج ربما يحفظ بعض الأعمال الفنية الموجودة على الإنترنت”، مشيراً إلى أن إجراء بحث سريع سيظهر الكثير من صور الرسوم المتحركة لثمار فجل في هيئة بشرية، مضيفاً أن “جي بي تي 3 -الذي يستند إليه نموذج “دال.إي”- اكتسب سمعة سيئة بسبب الحفظ”.

ومع ذلك، يتفق معظم الباحثين في مجال الذكاء الاصطناعي على أن ربط اللغة بالإدراك البصري هي طريقة جيدة لجعل أنظمة الذكاء الاصطناعي أكثر ذكاءً.

ويقول سوتسكيفر إن “أنظمة من هذا القبيل هي التي ستشكل المستقبل، وكلاً من هذين النموذجين يمثلان خطوة نحو هذا النظام”.