شاهد فيديو مستقبلياً عن الألعاب الأولمبية يكشف ملامح تطور الذكاء الاصطناعي

ملخص: أجرى صانع أفلام في مجال الترفيه الرياضي تجربة مبتكرة باستخدام الذكاء الاصطناعي التوليدي، فحصل على مقطع فيديو يعبر عن نظرة مستقبلية لمدينة لوس أنجلوس عندما تستقبل دورة الألعاب الأولمبية عام 3028. غير أن نظرة عميقة إلى هذا المقطع تكشف لنا المزيد عن الواقع الحالي لتكنولوجيا توليد مقاطع الفيديو بالذكاء الاصطناعي، وتبين لنا نقاط قوتها وضعفها، مثلاً، ما تزال نماذج الذكاء الاصطناعي تجد صعوبة في عكس التفاعلات والحوارات البشرية. يبين الفيديو أيضاً بعض التطبيقات المحتملة لهذه التكنولوجيا حالياً وفي المستقبل.

انتهت الألعاب الأولمبية في باريس منذ فترة قصيرة، كما أن الألعاب البارالمبية ما زالت مستمرة، ولهذا تبدو الألعاب الأولمبية الصيفية في لوس أنجلوس لعام 2028 وكأن علينا أن ننتظر دهراً قبل أن يحل موعدها. لكن صانع الأفلام في مجال الترفيه الرياضي، جوش كان، الذي عمل على إنتاج المحتوى للاعب كرة السلة الشهير ليبرون جيمس وفريق شيكاغو بولز لكرة السلة، أخذ يتعمق في التفكير في المستقبل مدفوعاً بفكرة مشاهدة الألعاب الأولمبية في مدينته الأم.

كيف ستبدو الألعاب الأولمبية في لوس أنجلوس عام 3028؟

إنه النوع المثالي من التمارين الإبداعية لتوليد مقاطع الفيديو بالذكاء الاصطناعي، الذي أصبح تياراً سائداً متاحاً للعموم مع ظهور سورا (Sora) من أوبن أيه آي (OpenAI) في وقتٍ سابق من هذا العام. فقد أصبح بوسع المستخدمين توليد مقاطع فيديو بدقة عالية نسبياً خلال دقائق معدودة بمجرد كتابة بعض الأوامر النصية وتلقيمها لأنظمة التوليد، مثل رانواي (Runway) أو سينثيزيا (Synthesia). إنها عملية سريعة وزهيدة التكاليف، علاوة على أنها لا تنطوي على عوائق تقنية كثيرة مقارنة بتقنيات إنتاج الفيديو التقليدية، مثل الرسوميات المُوَلّدة باستخدام الكمبيوتر (CGI) أو الرسوم المتحركة.

وحتى على الرغم من أن اللقطات ليست مثالية جميعاً -فقد تظهر فيها عيوب مثل أيدٍ مزودة بست أصابع أو أجسام تختفي فجأة، وهي عيوب شائعة في هذه المقاطع- فثمة مجموعة من التطبيقات التجارية لهذه المقاطع، من الناحية النظرية على الأقل. من الممكن أن تكون هذه التكنولوجيا مفيدة لوكالات الإعلانات والشركات وصانعي المحتوى، لإنشاء مقاطع الفيديو بسرعة وبتكاليف زهيدة.

أمضى كان بعض الوقت في إجراء التجارب على أدوات الذكاء الاصطناعي المخصصة للفيديو، وقد استخدم أحدث نسخة من رانواي من أجل وضع تصور معبر عن الألعاب الأولمبية في المستقبل، حيث لقم النموذج بأمر نصي جديد لكل لقطة. يبلغ طول مقطع الفيديو أكثر من دقيقة واحدة بقليل، ويتضمن لقطات جوية شاملة لتصميم مستقبلي لمدينة لوس أنجلوس، حيث يظهر فيها ارتفاع حاد في مستوى سطح البحر، ما جعل المدينة مكتظة بالسكان على كامل مساحتها وصولاً إلى الساحل. ثمة ملعب لكرة القدم على أعلى ناطحة سحاب، على حين تتضمن قبة في وسط المرفأ ملاعب للكرة الطائرة الشاطئية.

حصلت مجلة إم آي تي تكنولوجي ريفيو (MIT Technology Review) على نسخة حصرية من هذا الفيديو، وهو لا يمثل خارطة توجيهية لتطوير المدينة بقدر ما يمثل عرضاً توضيحياً يبين الإمكانات الحالية للذكاء الاصطناعي.

الإمكانات الحالية للذكاء الاصطناعي

يقول كان: "كنا نشاهد الألعاب الأولمبية، ومستوى الجهود والحرص في رواية القصص المعبرة عن التاريخ الثقافي للمدينة المضيفة. ثمة ثقافة تعتمد على الخيال ورواية القصص في لوس أنجلوس، والتي شكلت إلى حد ما معياراً يتبعه العالم بأسره. ألن يكون أمراً رائعاً أن نتمكن من عرض الشكل الذي ستبدو عليه الألعاب الأولمبية في حال عودتها إلى لوس أنجلوس بعد ألف سنة من الآن؟".

يبين الفيديو بالدرجة الأولى أن التكنولوجيا التوليدية قد تصبح شيئاً رائعاً بالنسبة إلى صانعي المحتوى. غير أنه يشير أيضاً إلى العوامل التي تعوق تطورها. على الرغم من أن كان لم يشارك الأوامر النصية التي استخدمها في لقطاته، ولم يفصح عن عدد الأوامر النصية التي جربها للوصول إلى نتيجة مرضية بالنسبة إلى كل لقطة من اللقطات، فقد حذر من أن أي شخص يرغب في إنشاء محتوى جيد باستخدام الذكاء الاصطناعي، يجب أن يكون مستعداً للتعامل مع أسلوب التجربة والخطأ. من أصعب المشاكل التي واجهت كان في مشروعه المستقبلي كيفية دفع نموذج الذكاء الاصطناعي إلى وضع تصاميم معمارية غير تقليدية. فالملعب الذي يعوم فوق الماء، على سبيل المثال، ليس بالأمر التقليدي الذي توجد أمثلة كثيرة عنه في البيانات المستخدمة في تدريب معظم نماذج الذكاء الاصطناعي.

وبما أن كل لقطة تتطلب مجموعة جديدة من الأوامر النصية، فمن الصعب أيضاً إضفاء شعور بالاستمرارية على طول مقطع الفيديو. فليس من السهل على نموذج توليد الفيديو أن يحافظ على الاتساق في الألوان وزاوية ورود أشعة الشمس وأشكال الأبنية. إضافة إلى هذا، لا يتضمن الفيديو أي لقطات قريبة للبشر، وهي مهمة يقول كان إن نماذج الذكاء الاصطناعي ما زالت تجد صعوبة في التعامل معها.

ويقول: "حالياً، تقدم هذه التكنولوجيات نتائج أفضل عند التعامل مع الأشياء الضخمة، بالمقارنة مع التفاعلات البشرية ذات التفاصيل الدقيقة". لهذا السبب، يظن كان أن التطبيقات المبكرة لنماذج إنشاء الفيديو باستخدام الذكاء التوليدي في مجال صناعة الأفلام ربما تركز على اللقطات الواسعة للمناظر الطبيعية أو الحشود الكبيرة.

نماذج الذكاء الاصطناعي لا تزال تجد صعوبة في تصوير التفاعلات البشرية

يتفق خبير أنظمة توليد الفيديو بالذكاء الاصطناعي، أليكس ماشرابوف، الذي ترك منصب مدير الذكاء الاصطناعي التوليدي في شركة سناب (Snap) العام الماضي ليؤسس شركة جديدة مختصة بإنشاء الفيديو بالذكاء الاصطناعي تحمل اسم "هيغزفيلد أيه آي" (Higgsfield AI)، مع كان بشأن الإخفاقات والعيوب الحالية لهذه الأنظمة. ويشير أيضاً إلى أنه من الصعب استخدام الذكاء الاصطناعي لإنتاج محتوى يعتمد على الحوار إلى حد كبير، لأنه يميل إلى الاعتماد على تعبيرات الوجه الدقيقة ولغة الجسد.

قد يتردد بعض صانعي المحتوى في اعتماد أنظمة توليد الفيديو باستخدام الذكاء الاصطناعي التوليدي ببساطة، بسبب الوقت اللازم لتجريب الكثير من الأوامر النصية مراراً وتكراراً للحصول على نتيجة نهائية صحيحة.

يقول ماشرابوف: "عادة ما يبلغ معدل النجاح 1 إلى 20"، على الرغم من أنه ليس من المُستبعَد أن يتطلب الأمر 50 أو 100 محاولة.

غير أن هذا كافٍ إلى درجة مرضية، لتحقيق أغراض متعددة. يقول ماشرابوف إنه شهد زيادة ملحوظة في عدد الإعلانات المصورة المولدة بالذكاء الاصطناعي التي أنتجها موردون كبار مثل شركة تيمو (Temu) التي تدير سوقاً إلكترونية عبر الإنترنت. وفي البلدان المنتجة للسلع مثل الصين، ازداد الطلب على أنظمة توليد الفيديو إلى درجة كبيرة، وذلك لإنشاء إعلانات فيديو مباشرة لمنتجات معينة على وجه السرعة. وحتى إذا كان من الممكن أن يتطلب نموذج الذكاء الاصطناعي تجربة عدد كبير من الأوامر النصية للحصول على إعلان صالح للاستخدام، فإن تصوير هذا الإعلان بالاستعانة بأشخاص حقيقيين وكاميرات ومعدات مختلفة قد يكون أكثر تكلفة بمائة مرة. ويقول إن تطبيقات كهذه قد تمثل أول استخدام واسع النطاق لأنظمة توليد الفيديو بالذكاء الاصطناعي التوليدي، مع تحسن هذه التكنولوجيا بوتيرة بطيئة.

يقول ماشرابوف: "على الرغم من أنني أعتقد أن هذه الطريق طويلة للغاية، فإنني واثق للغاية من وجود بعض المكاسب القريبة المنال. نحن نعمل على اكتشاف أنواع مقاطع الفيديو التي يجيد الذكاء الاصطناعي التوليدي التعامل معها اليوم".