إليك كيف تستخدم الذكاء الاصطناعي التوليدي لتحويل قصة نصية إلى مصورة

4 دقيقة
لور ماشين
استمع الى المقالة الآن هذه الخدمة تجريبية
Play Audio Pause Audio

منذ 13 عاماً، وفي إطار فرض منزلي لأحد المقررات الدراسية في الصحافة، ألفتُ قصة ساذجة حول رجل يأكل طعام القطط الفاخر. وذات صباح منذ فترة وجيزة، شاهدت الذكاء الاصطناعي على منصة لور ماشين (Lore Machine) وهو يحول كلمات قصتي الغريبة إلى نتاج ينبض بالحياة.

بعد أن أدخلت نص قصتي في مربع نصي، ظهرت أمامي هذه الرسالة: “يعمل النظام حالياً على تحديد المشاهد، والمواقع، والشخصيات، إضافة إلى الأجواء. قد تستغرق هذه العملية دقيقتين”. حللت لور ماشين النص، واستخلصت أوصاف الشخصيات والمواقع المذكورة فيه، وقدمت هذه المعلومات إلى نموذج لتوليد الصور. بعد ذلك، ظهرت مشاهد رسومية للقصة على الشاشة. كان قلبي ينبض بشدة فيما كنت أستعرض شخصياتي شبه المنسية التي رُسِمت بألوان زاهية وبأسلوب القصص المصورة.

الراوي يجلس على الأرض ويتناول الفطور مع القطط. مصدر الصورة: لور ماشين/ ويل دوغلاس هيفن

اقرأ أيضاً: إليك كيف تستفيد من نموذج دال إي-3 لتوليد الصور

منصة لور ماشين لتوليد الصور

بعد أكثر من عام من التطوير، أصبحت منصة لور ماشين متاحة للعامة للمرة الأولى. ولقاء 10 دولارات في الشهر، يمكنك أن تحمّل نصوصاً بطول 100,000 كلمة (ما يصل إلى 30,000 كلمة دفعة واحدة) وتولد 80 صورة للقصص القصيرة والنصوص والمحتوى النصي للمدونات الصوتية وغير ذلك. ثمة أسعار مخصصة للمستخدمين المتميزين أيضاً، بما في ذلك خطة المؤسسات التي تبلغ تكلفتها 160 دولاراً في الشهر وتغطي 2.24 مليون كلمة و1,792 صورة. يمكن توليد الرسومات وفقاً لمجموعة محددة مسبّقاً من الأساليب، بدءاً من أسلوب المانغا اليابانية وصولاً إلى الألوان المائية وطابع المسلسلات التلفزيونية العائدة إلى فترة الثمانينيات.

كان مؤسس الوكالة الإبداعية موديرن آرتس (Modern Arts)، زاك رايدر، يستخدم نسخة متاحة للوصول المبكر من هذه الأداة منذ عرضها عليه مؤسس لور ماشين ثوبي كامبيون للاطلاع على قدراتها. أرسل رايدر نصاً لفيلم قصير إلى كامبيون، الذي استخدم لور ماشين لتحويله إلى قصة مصورة مؤلفة من 16 صفحة خلال ليلة واحدة.

“أتذكر ثوبي عندما أتاح شاشته للمشاركة معي. لقد أصبنا بالذهول جميعاً، ببساطة”، كما يقول رايدر. ويكمل قائلاً: “لم يكن توليد الصور سبب ذهولنا هذا. بل كان مستوى رواية القصة. كان كل شيء رائعاً منذ البداية، بدءاً بسلاسة سرد القصة وصولاً إلى مشاعر الشخصيات”.

حالياً، تستخدم موديرن آرتس منصة لور ماشين لتطوير عالم خيالي لسلسلة مانغا مبنية على نص كتبه مبتكر مسلسل “الحب والموت والروبوتات” (Love, Death and Robots) الذي عُرِض على منصة نتفليكس (Netflix).

الراوي يصادف الرجل في المتجر على زاوية الشارع، الذي يطلق النكات حول طعام القطط. مصدر الصورة: لور ماشين/ ويل دوغلاس هيفن

اقرأ أيضاً: هل يمكن للروبوت تأليف قصة؟ جرب بنفسك

كيف بُنيت أداة لور ماشين؟

داخلياً، بُنيت أداة لور ماشين من مجموعة من الأجزاء المألوفة. حيث يعمل نموذج لغوي كبير على مسح النص، وتحديد أوصاف الأشخاص والأماكن، إضافة إلى المشاعر العامة. أما توليد الصور فيتولاه أحد إصدارات النموذج ستيبل ديفيوجن (Stable Diffusion). إلا أن سهولة الاستخدام هي السمة المميزة لهذه المنصة. فقد احتجت ربما إلى 6 نقرات لتنفيذ العملية بالكامل، بدءاً من تحميل قصتي وصولاً إلى تنزيل رسوماتها.

وهو ما يجعل هذه المنصة جزءاً من موجة جديدة من الأدوات السهلة الاستخدام التي تخفي القوة المذهلة للنماذج التوليدية خلف واجهة ويب تعمل بنقرة واحدة. يقول الرئيس التنفيذي لشركة إنتاج المحتوى نيو كمبيوتر كوربوريشن (New Computer Corporation)، بن بالمر: “إن مجاراة تطورات أدوات الذكاء الاصطناعي الجديدة تتطلب الكثير من الجهد، كما تختلف الواجهة وطريقة الاستخدام لكل أداة عن غيرها في الأدوات الأخرى. أما استخدام أداة شاملة واحدة مزودة بواجهة متسقة فهو أمر جذاب للغاية. وأعتقد أنه التوجه الذي يجب أن يركز عليه هذا المجال”.

انظروا! بلا أوامر نصية

أسس كامبيون الشركة التي تشرف على منصة لور ماشين منذ عامين للعمل على نسخة تعتمد على البلوك تشين من ويكيبيديا (Wikipedia). لكنه غيّر هذا التوجه عندما رأى إقبال الناس على النماذج التوليدية. استخدم كامبيون نموذج ميدجورني (Midjourney) المجاني الاستخدام لتحويل النصوص إلى صور من أجل إنتاج نسخة بأسلوب القصص المصورة لقصيدة سامويل كولريدج “قوافي البحار القديم” (The Rhyme of the Ancient Mariner). حققت هذه القصيدة المصورة انتشاراً واسعاً وسريعاً، غير أن عملية إنتاجها لم تكن ممتعة.

مارتا تواجه الراوي بشأن نظامهما الغذائي الجديد، وتقترح أن تطهو لهما. مصدر الصورة: لور ماشين/ ويل دوغلاس هيفن

ويقول: “كرهت زوجتي هذا المشروع. فقد كنت أسهر كل يوم حتى الرابعة صباحاً وأنا أبذل جهداً كبيراً لإنتاج هذه الصور كما يجب”. كانت المشكلة تكمن في نماذج تحويل النصوص إلى صور مثل ميدجورني، فقد كانت تولد الصور واحدة تلو الأخرى. وهو ما يزيد صعوبة الحفاظ على الاتساق بين صور مختلفة للشخصيات نفسها. بل إن الحفاظ على أسلوب معين في عدة صور مختلفة قد يكون صعباً. يقول كامبيون: “انتهى بي المطاف بالتوجه نحو استخدام أسلوب تعبيري مجرد وأكثر غرابة”.

أدرك كامبيون على إثر هذه التجربة أن طريقة استخدام هذه التكنولوجيا يجب أن تكون أسهل بكثير. لم يفصح كامبيون عن الطريقة المتبعة في لور ماشين بالضبط للحفاظ على اتساق الأشكال وأسلوب التصميم عبر سلسلة كاملة من الصور. يؤدي النظام عملاً رائعاً، لكنه ليس خالياً من العيوب، ففي أحد المشاهد من قصتي، ظهرت خصلات شعر طويلة على رأس إحدى الشخصيات القصيرة الشعر، وفي مشهد آخر ظهرت إحدى الشخصيات مرتين. إضافة إلى ذلك، فقد تصبح الرسومات رتيبة بعد عدد من المشاهد. غير أن النظام ما زال يمثل خطوة كبيرة إلى الأمام، مقارنة بالعملية التي تتطلب تنفيذ الخطوات يدوياً ومن خلال أوامر نصية عديدة متتالية.

يقول رايدر: “تتسم النتائج بدرجة رائعة من الاتساق”. بفضل هذه النتائج، شعرت وكالة موديرن آرتس بالثقة الكافية لاستخدام لور ماشين في مشروع مع أحد عملائها. ويضيف رايدر قائلاً: “لو كنا مضطرين لمراجعة العمل باستمرار لتصحيح مشاكل الاتساق، لما تمكنا من تسليم العمل في الموعد المحدد”.

قصة مصورة ولَّدها الذكاء الاصطناعي. مصدر الصورة: لور ماشين/ ويل دوغلاس هيفن

على غرار النماذج التوليدية كلها، يمكن أن تُنتج التكنولوجيا التي تعتمد عليها لور ماشين محتوى مسيئاً عند الطلب. يقول كامبيون إنهم منعوا النظام من توليد صور تتضمن مشاهد عنيفة أو نماذج نمطية سلبية. أما في الحالات الأخرى، فليس لدى كامبيون رغبة في التدخل في التعبير الإبداعي للفنانين. على سبيل المثال، يُسمح بتوليد صور المشاهير بناءً على تخيلات المعجبين.

اقرأ أيضاً: إليك ما يجب أن تعرفه عن نموذج توليد الفيديو من أوبن أيه آي “سورا”

عبّرت وكالات التسويق عن أكبر درجة من الاهتمام الأولي بمنصة لور ماشين. لكن كامبيون يأمل أن إطلاق المنصة للجمهور سيشجع شريحة أكبر من المستخدمين على تجربتها. ويقول إنه تلقى منذ 6 أشهر مكالمة هاتفية من مدير مدرسة مخصصة للطلاب الذين يعانون صعوبات في التعلم في مانهاتن. وكان يريد تلقيم الكتب الدراسية في مدرسته للأداة بحيث تنتج صوراً يستطيع الطلاب مشاهدتها. يقول كامبيون: “لم يخطر في بالي سيناريو الاستخدام هذا على الإطلاق، فقد كانت عقلية هوليوود تسيطر على أفكاري”.