صور جميلة ولدها الذكاء الاصطناعي تخفي سراً خطيراً

حقوق الصورة: جوجل.

استمع الى المقالة الآن هذه الخدمة تجريبية

مرّ شهر آخر، ومع هذا الشهر، شهدنا سيلاً آخر من الصور الغريبة والرائعة التي ولدها الذكاء الاصطناعي. ففي أبريل/ نيسان، استعرضت “أوبن أيه آي” (OpenAI) أحدث شبكاتها العصبونية الجديدة لتوليد الصور: “دال-إي 2” (DALL-E 2)، والتي تستطيع إنتاج صور عالية الدقة لأي شيء يُطلب منها تقريباً. وقد تمكنت هذه الشبكة من التفوق على شبكة دال-إي الأصلية بجميع الطرق تقريباً.

والآن، وبعد بضعة أسابيع وحسب، أطلق فريق “جوجل براين” (Google Brain) نظامه الخاص لتوليد الصور بالذكاء الاصطناعي، والذي يحمل اسم “إيماجن” (Imagen). وقد قدم هذا النظام أداء أفضل من دال-إي 2: فقد حقق علامات أعلى على مقياس تقييم جودة الصور المولدة حاسوبياً، كما أن مجموعة من الحكام البشر فضلوا الصور التي ينتجها.

وعلق أحد مستخدمي تويتر قائلاً: “نحن نشهد نسخة جديدة من السباق الفضائي، ولكن في مجال الذكاء الاصطناعي!” وعلق آخر قائلاً: “إن صناعة الصور عامة الاستخدام أصبحت بحكم المنتهية”.

We are thrilled to announce Imagen, a text-to-image model with unprecedented photorealism and deep language understanding. Explore https://t.co/mSplg4FlsM and Imagen!

A large rusted ship stuck in a frozen lake. Snowy mountains and beautiful sunset in the background. #imagen pic.twitter.com/96Vfo2kXJz

— Chitwan Saharia (@Chitwan_Saharia) May 24, 2022

وبالفعل، فإن الكثير من صور إيماجن تدعو إلى الدهشة. وللوهلة الأولى، تبدو بعض المناظر الطبيعية الخارجية وكأنها مأخوذة مباشرة من صفحات مجلة “ناشيونال جيوغرافيك” (National Geographic). وتستطيع فرق التسويق استخدام إيماجن لإنتاج إعلانات جاهزة للعرض على اللوحات الإعلانية على الفور، بمجرد بضع نقرات وحسب.

ولكن، وكما فعلت أوبن أيه آي مع دال-إي، قررت “جوجل” (Google) الاعتماد على الظرافة بشكل كلي. وتروج كلتا الشركتين لأدواتهما باستخدام سلسلة من الصور المليئة بالحيوانات التي تقلد البشر أثناء قيامها بأفعال طريفة، مثل دب باندا ناعم الفراء ويرتدي لباس الطاهي ويقوم بصنع العجين، أو كلب كورغي الويلزي يجلس في منزل مصنوع من السوشي، أو دب محشو يشارك في سباق سباحة الفراشة لمسافة 400 متر في الألعاب الأولمبية، وهكذا دواليك.

New @GoogleAI work:

Input: “Two meerkats sitting next to each other on top of a mountain and looking at the beautiful landscape. There is a mountain, a river lake, and fields of yellow flowers. There are hot air balloons in the sky.”#imagen https://t.co/JEgyNrcJjl

Output: https://t.co/uj4urjnZPF pic.twitter.com/I1zx8ZARBl

— Jeff Dean (@🏡) (@JeffDean) May 24, 2022

ويعود هذا الاختيار إلى سبب فني، إضافة إلى سبب يتعلق بالعلاقات العامة. فالجمع بين مفاهيم مثل “باندا ناعم الفراء” و “يصنع العجين” يرغم الشبكة العصبونية على تعلم كيفية التلاعب بهذه المفاهيم بطريقة تبدو منطقية. ولكن الظرافة التي تنتجها هذه الأدوات تخفي خلفها سراً خطيراً، وهو سر لا يطلع عليه العامة لأنه يكشف الحقيقة البشعة حول كيفية صنع هذه الصور.

فمعظم الصور التي تنشرها أوبن أيه آي وجوجل للعامة مختارة بعناية. ونحن لا نرى سوى الصور الظريفة التي تتشابه مع توصيفاتها بدقة خارقة، وهو أمر متوقع. ولكننا لا نرى أي صور تحتوي على نماذج نمطية تعبر عن الكراهية أو العنصرية أو التمييز. ولا توجد صور عنيفة أو معادية للمرأة. وليس هناك أي صور إباحية للباندا. ولكن معلوماتنا عن هذه الأدوات تقول إن هذه الصور يجب أن تكون موجودة.

Not a single human face depicted in the hundreds of pictures in the paper, haha. I guess that’s one way to eliminate concerns over representation bias. https://t.co/tKX8khoTDR

— mike cook (@mtrc) May 23, 2022

من المعروف أن النماذج الضخمة، مثل دال-إي 2 وإيماجن، تم تدريبها باستخدام عدد كبير من الوثائق والصور المأخوذة من الإنترنت، ما يعني أنها تحتوي على أسوأ أنواع البيانات وأفضلها أيضاً. وقد اعترفت كل من أوبن أيه آي وجوجل صراحةً بهذا الأمر.

وإذا قمت بتحريك الصفحة نحو الأسفل في موقع الويب الخاص بإيماجن، متجاوزاً فاكهة التنين التي ترتدي حزام الكاراتيه والصبارة الصغيرة التي ترتدي قبعة ونظارات شمسية، وصولاً إلى القسم المتعلق بالتأثير الاجتماعي، فسوف تقرأ التالي: “مع أننا قمنا بفلترة مجموعة فرعية من بيانات التدريب لإزالة الضجيج والمحتوى المسيء، مثل الصور الإباحية واللغة المسيئة، فقد قمنا أيضاً باستخدام مجموعة البيانات LAION-400M، والمعروفة باحتوائها على نطاق واسع من المحتوى المسيء، بما في ذلك الصور الإباحية، والمصطلحات العنصرية، والنماذج النمطية الاجتماعية المؤذية. يعتمد إيماجن على مرمزات نصية تم تدريبها على مجموعات بيانات على شبكة الإنترنت دون معالجة، ما يعني أنه سيمتص التحيزات الاجتماعية للنماذج اللغوية الكبيرة، وسيرث عنها حدود قدراتها. ولهذا، هناك احتمال خطير بقيام إيماجن بترميز النماذج النمطية والترميزات المؤذية، وهو الأساس الذي اعتمدنا عليه في قرارنا بعدم إطلاق إيماجن للعامة دون تطبيق المزيد من الإجراءات الوقائية”.

إنه اعتراف مشابه لاعتراف أوبن أيه آي عندما أعلنت عن النموذج اللغوي “جي بي تي 3” في 2019: “النماذج اللغوية التي تم تدريبها على الإنترنت تحمل التحيزات الموجودة على شبكة الإنترنت”. وكما أشار مايك كوك، وهو باحث في مجال الابتكار في الذكاء الاصطناعي في جامعة كوين ماري في لندن، فإن هذا الاعتراف موجود أيضاً في التصريحات المتعلقة بالأخلاقيات، والتي رافقت أيضاً إطلاق النموذجين اللغويين الكبيرين “بالم” (PaLM) من جوجل و”دال-إي 2″ من أوبن أيه آي. وباختصار، فإن هذه الشركات تعرف أن نماذجها قادرة على إنتاج محتوى مسيء للغاية، وليس لديها أدنى تصور عن كيفية معالجة هذه المشكلة.

I feel like at some point in the last few years we somehow confused “AI ethics” with “pointing at the mess you made and shrugging”.https://t.co/JEu2ngilEZ pic.twitter.com/mMbNQUzgXW

— mike cook (@mtrc) April 8, 2022

وفي الوقت الحالي، يبدو أن الحل الأفضل هو إبقاء هذه النماذج في مكانها ضمن المختبرات. فقد أتاحت أوبن أيه آي استخدام دال-إي 2 فقط لمجموعة صغيرة من المستخدمين الموثوقين، أما جوجل فليس لديها أي خطط لإطلاق إيماجن.

وهذا أمر لا بأس به لو كانت هذه النماذج مجرد ابتكارات خاصة بالشركة. ولكن هذه الشركات تعمل على زيادة قدرات الذكاء الاصطناعي، ويؤثر عملها على شكل الذكاء الاصطناعي المنتشر بيننا جميعاً. إن هذه الشركات تصنع عجائب جديدة، ولكنها أيضاً تصنع أهوالاً جديدة، ومن ثم تتابع طريقها بكل برود. فعندما تحدث فريق الأخلاقيات الخاص بجوجل عن مشكلات النماذج اللغوية الكبيرة في 2020، أدى هذا إلى نزاع انتهى بطرد اثنين من الباحثين الأساسيين في الفريق.

يمكن أن تؤدي تكنولوجيات النماذج اللغوية الكبيرة وأنظمة الذكاء الاصطناعي التي تركّب الصور إلى تغيير العالم، ولكن فقط إذا تمكنا من السيطرة على إساءاتها. وهو ما سيتطلب إجراء الكثير من الأبحاث الجديدة. وقد تم اتخاذ بعض الخطوات الأولية لفتح هذه الأنواع من الشبكات العصبونية أمام الدراسات على نطاق واسع. فمنذ بضعة أسابيع، نشرت شركة “ميتا” نموذجاً لغوياً كبيراً للباحثين، بكل أخطائه. ومن المفترض أن تقوم شركة “هاغينغ فيس” (Hugging Face) بإطلاق نسختها مفتوحة المصدر من جي بي تي 3 في الأشهر المقبلة.

وحتى ذلك الحين، يمكنكم الاستمتاع بالصور الظريفة.