كيف تساعد هذه الشركة الغامضة إيلون ماسك على توليد صور «إكس» المثيرة للجدل؟

6 دقيقة
كيف تساعد هذه الشركة الغامضة إيلون ماسك على توليد صور "إكس" المثيرة للجدل؟
حقوق الصورة: Shutterstock.com/Artie Medvedev

ملخص: شهدت منصة "إكس" خلال الأسبوعين الماضيين انتشاراً واسعاً لصور مثيرة للجدل مولدة بالذكاء الاصطناعي. أنشأ المستخدمون صوراً بالغة الواقعية لسياسيين وشخصيات عامة يحملون أسلحة ويفعلون تصرفات محرجة، إلى جانب صور أخرى لشخصيات كرتونية ترتكب أعمالَ عنفٍ وحشية. تصاعدت هذه الفوضى بعدما أطلقت المنصة تحديثاً جديداً لبوت "غروك" يتضمن مولداً للصور تقف وراءه شركة ناشئة صغيرة للغاية تُسمَّى "بلاك فورست لابز". أصدرت هذه الشركة مؤخراً نموذجاً مخصصاً لتحويل النص إلى صورة يُسمَّى "فلوكس.1"، يتميز بثلاثة إصدارات يمكنها إنتاج صور عالية الدقة وبتفاصيل أكثر واقعية مقارنة بالنماذج المنافسة. غير أن انتشار الصور التي ولّدها النموذج على "إكس" أثار قلقاً بشأن انتهاكات حقوق النشر وقضايا الخصوصية، لا سيما وأن مولد الصور يفتقر إلى قيود فعّالة تمنع إساءة استخدامه. وفي خضم هذه الأحداث، تقول شركة "بلاك فورست لابز" إنها تسعى لإطلاق أول نماذجها المصممة لتحويل النص إلى فيديو.

خلال الأيام القليلة الماضية، شهدت منصة "إكس" انتشاراً واسعاً لصور مولدة بواسطة الذكاء الاصطناعي أثارت الدهشة والاستغراب، نظراً لطابعها العنيف أو الصريح الذي لم يكن مألوفاً منذ ظهور أول مولدات الصور القائمة على الذكاء الاصطناعي.

ربما تكون قد شاهدت مؤخراً صورة للرئيس الأميركي السابق دونالد ترامب يدخن الماريجوانا، وأخرى لميكي ماوس يبتسم بينما يطلق الرصاص. هذه الصور غالباً ما تم توليدها باستخدام بوت الدردشة غروك (Grok) الذي طوّرته شركة إكس أيه آي (XAI) المملوكة لإيلون ماسك، بمساعدة شركة ألمانية ناشئة تُسمَّى بلاك فورست لابز (Black Forest Labs).

قبل أقل من أسبوعين، كشفت "إكس أيه آي" عن نموذجين جديدين هما غروك-2 (Grok-2) وغروك-2 ميني (Grok-2 mini) بهدف توفير أداء أفضل وقدرات جديدة لإنشاء الصور لبوت الدردشة "غروك". وأعلنت الشركة أنها تعمل مع "بلاك فورست لابز" لتشغيل ميزة توليد الصور الجديدة على "غروك" باستخدام نموذجها الذي يُسمى فلوكس.1 (FLUX.1).

تشير التقارير إلى أن مولد الصور في "غروك" يفتقر إلى حواجز صارمة لمنع إساءة الاستخدام كتلك الموجودة في المولدات الأخرى الشهيرة مثل "دال-إي" و"إيماجن"، ما يرجّح أن هذه الشركة، التي تتخذ من مدينة فرايبورغ الألمانية مقراً لها، تتبنى رؤية ماسك لغروك باعتباره "بوت دردشة يتحدى أفكار ووك". ويشير مصطلح ووك (Woke) إلى مجموعة من الأفكار المتعلقة بالدفاع عن العدالة الاجتماعية والعرقية، لكنه يُستخدم أحياناً لانتقاد ما يُعتبر مبالغة في هذا التوجه.

اقرأ أيضاً: إليك كيف تستفيد من نموذج دال إي-3 لتوليد الصور

في الوقت الحالي، يقتصر الوصول إلى بوت "غروك" على مستخدمي "إكس" المشتركين في خدمتي بريميوم (Premium) أو بريميوم بلس (Premium Plus)، لكن نوعية الصور التي ينتجها "غروك" أثارت جدلاً واسعاً على المنصة عموماً، حيث وصف بعض الأشخاص هذا البوت بأنه "أحد أكثر تطبيقات الذكاء الاصطناعي تهوراً وعدم مسؤولية على الإطلاق".

ويبدو أن دعم ماسك لهذا التوجه أسهم في انتشار الصور ومقاطع الفيديو المولّدة بواسطة الذكاء الاصطناعي على "إكس" بشكلٍ أوسع من أي منصة تواصل اجتماعي أخرى. شاهد، على سبيل المثال، هذا المقطع المذهل الذي تم إعداده بمساعدة الذكاء الاصطناعي، وانتشر مؤخراً على "إكس"، والذي يُظهر بعض الرؤساء والسياسيين الأميركيين وهم يسرقون متجراً قبل إلقاء القبض عليهم:

"فلوكس" القفزة التالية في نماذج تحويل النص إلى صورة

أصدرت "بلاك فورست لابز" نموذجها المخصص لتحويل النص إلى صورة "فلوكس.1" في الأول من أغسطس. ووفقاً لبحث مستقل، فقد تم استخدام النموذج عدة ملايين من المرات خلال الأسبوع الأول من إطلاقه. وفي إصداره الأسرع، يحتاج النموذج إلى أقل من 10 ثوانٍ لإنتاج صورة احترافية.

وتتكون سلسلة "فلوكس" من 3 إصدارات، كلٌ منها مصمم خصيصاً لحالات استخدام مختلفة:

1- FLUX.1 [pro]: النموذج الرئيسي، وهو مصمم لتوفير أفضل أداء في توليد الصور مع التركيز على الجودة البصرية والتفاصيل وتنوع الصور. يتوفر هذا النموذج من خلال واجهة برمجة التطبيقات الخاصة بالشركة، وكذلك عبر منصتي (Replicate) و(fal.ai).

2- FLUX.1 [dev]: نموذج مفتوح الوزن متاح مجاناً للتطبيقات غير التجارية، ويمكن الوصول إليه عبر منصات هاغينغ فيس (HuggingFace) و(Replicate) و(fal.ai).

3- FLUX.1 [schnell]: أسرع إصدارات السلسلة، وهو مخصص للاستخدام الشخصي. يتوفر للعموم بموجب ترخيص (Apache 2.0) الذي يسمح باستخدام النموذج وتعديله وتوزيعه لأي غرض، ما يجعله مناسباً لمجموعة واسعة من التطبيقات والتجارب.

يتميز نموذج "فلوكس.1" بحجمه الكبير، حيث يحتوي على 12 مليار معامل وسيط، ما يمثّل قفزة كبيرة مقارنة بالعديد من نماذج تحويل النص إلى صورة الحالية. ويهدف النموذج إلى إنتاج صور ذات دقة أعلى وتفاصيل أكثر واقعية من النماذج المنافسة، مع الالتزام بشكل أكبر بالأوامر النصية لتوليد صور تعكس نوايا المستخدم على نحو أكثر دقة.

اقرأ أيضاً: تحويل النص إلى صورة: دليلك لأفضل مولدات الصور المدعومة بالذكاء الاصطناعي

أظهرت التجارب أن "فلوكس.1" قادر على توليد صور الأيدي البشرية، وهي نقطة ضعف كانت بارزة في العديد من النماذج السابقة، خاصة النماذج المفتوحة المصدر، بسبب نقص صور التدريب التي تركّز على تفاصيل الأيدي. ومع أن الشركة لم تذكر صراحة من أين حصلت على بيانات التدريب، فإن النتائج التي تتضمن شخصيات محمية بحقوق الطبع والنشر تشير إلى احتمالية جمع "بلاك فورست لابز" كميات كبيرة من الصور من الإنترنت دون تصريح، الأمر الذي قد يعرّضها إلى دعاوى قضائية على غرار ما تواجهه الكثير من شركات الذكاء الاصطناعي حالياً.

تقول الشركة إنها ستنشر تقريراً تقنياً مفصلاً في المستقبل القريب. لكن يمكن الاطلاع من هنا على المزيد من التفاصيل التقنية الخاصة بالنموذج والمقارنات بينه وبين النماذج الأخرى الشهيرة.

14 شخصاً فقط

تُظهر جودة الصور المولدة أن هذا النموذج قادر على التنافس مع منتجات الشركات الأميركية الكبيرة مثل "أوبن أيه آي" و"ميدجورني"، على الرغم من أن عمر الشركة التي تقف وراءه يبلغ شهرين فقط، وبحسب التقارير فإنها لا توظّف سوى 14 شخصاً.

لكن هذا العدد الصغير من موظفي الشركة يتضمن أشخاصاً يتمتّعون بسجلٍ حافلٍ في تطوير نماذج الذكاء الاصطناعي التوليدي الشهيرة، بمن فيهم روبن رومباش وباتريك إيسر وأندرياس بلاتمان، الذين أسهموا في تطوير سلسلة نماذج ستيبل ديفيوجن (Stable Diffusion) التي أحدثت ثورة في توليد الصور المفتوحة المصدر خلال العامين الماضيين.

سرعان ما جمعت الشركة الجديدة 31 مليون دولار في أولى جولاتها التمويلية بقيادة شركة رأس المال الاستثماري آندرسن هورويتز (a16z)، التي قالت إن فريق "بلاك فورست لابز" في "مهمة لبناء أفضل نماذج مرئية مفتوحة في العالم للمطورين".

ومن المتوقع أن ترفع الشراكة التي عقدتها "بلاك فورست لابز" مع شركات ماسك من مكانة هذه الشركة الصغيرة، التي تقول إن مهمتها تتمثل في "جلب أحدث تقنيات الذكاء الاصطناعي من أوروبا إلى كل شخص حول العالم".

القليل من الحواجز قد لا يفيد

بعد نحو أسبوع من تشغيل ميزات توليد الصور، لاحظت وكالة بلومبرغ أن "غروك" بدأ فرض المزيد من القيود على توليد الصور العنيفة أو الإباحية في الوقت الفعلي، لكن الوكالة أشارت إلى أنه لا يزال من السهل التحايل على هذه القيود باستخدام خدع مثل استبدال كلمة "دم" بـ "عصير الفراولة".

انتشار صور النموذج على "إكس" أثار مخاوف جديدة بشأن انتهاكات حقوق النشر وقضايا الخصوصية ونشر المعلومات المضللة. ونقلت بلومبرغ عن تيفاني لي، الأستاذة المساعدة في كلية الحقوق بجامعة سان فرانسيسكو والمتخصصة في قوانين الذكاء الاصطناعي والملكية الفكرية، قولها إن "هناك قضايا قانونية وقضايا أخلاقية أيضاً". وأضافت لي أن لديها مشاعر متباينة بشأن الصور التي تضع الشخصيات العامة في مواقف فاضحة، "فمن ناحية، أعتقد أنها تمثّل مشكلة لأنها تنشر المعلومات الكاذبة على نطاقٍ واسع كما حدث. ولكن من ناحية أخرى، فإن القدرة على إنشاء صور ساخرة لشخصيات عامة هي حق محمي بموجب التعديل الأول [من الدستور الأميركي]".

ويوضح أستاذ علوم الكمبيوتر في جامعة كاليفورنيا بيركلي، هاني فريد، أن هناك ثلاث مراحل يمكن خلالها وضع حواجز واقية على مولد الصور، وهي: التدريب والإدخال النصي وإخراج الصورة. وقال فريد إن أدوات الذكاء الاصطناعي الشهيرة عادةً ما تتضمن حواجز واقية في اثنين من هذه المراحل أو الثلاث كلّها.

صورة مولدة بواسطة نموذج "فلوكس.1". المصدر: شركة "بلاك فورست لابز"

"غروك الأكثر متعة في العالم"

وصل عدد المنشورات المتعلقة بـ "غروك" على "إكس" إلى ذروته يوم 15 أغسطس، وذلك بعد يومين من الإعلان عن ميزات توليد الصور، حيث بلغ العدد 166 ألف منشور، وفقاً لشركة البيانات بيك ميتركس (PeakMetrics).

ومع تراجع أعداد المنشورات وتحول دفة الحديث إلى انتهاكات حقوق الطبع والنشر والانتقادات المتعلقة بالصور العنيفة والفاضحة، رد ماسك قائلاً إن "غروك هو الذكاء الاصطناعي الأكثر متعة في العالم"، كما أعاد نشر بعض سلاسل الصور المولدة بواسطة "غروك".

قد يسهم دخول "بلاك فورست لابز" مجال النماذج المفتوحة في تنشيط الذكاء الاصطناعي المفتوح المصدر بشكلٍ عام، لا سيما وأن شركة ستابيليتي أيه آي (Stability AI)، الشركة التي تقف وراء نموذج "ستيبل ديفيوجن"، متعثرة حالياً، وثمة مخاوف بشأن مستقبل نماذج توليد الصور عالية الجودة المتاحة للجمهور.

اقرأ أيضاً: إليك أبرز أدوات تحويل النص إلى صورة بالذكاء الاصطناعي

تركّز الشركة الآن على نماذج تحويل النص إلى فيديو، قائلة إن سلسلة "فلوكس 1" ستعمل كأساس لمجموعة جديدة من نماذج تحويل النص إلى فيديو قيد التطوير حالياً، يمكن أن تنافس نموذج سورا (Sora) الذي طوّرته "أوبن أيه آي". وتقول "بلاك فورست لابز" على موقعها إن "نماذج الفيديو الخاصة بنا ستُتيح إمكانية الإنشاء الدقيق والتحرير بدقة عالية وسرعة غير مسبوقة".