4 اعتبارات يجب أخذها في الحسبان عند استخدام الذكاء الاصطناعي التوليدي للفيديو

13 دقيقة
4 اعتبارات يجب أخذها في الحسبان عند استخدام الذكاء الاصطناعي التوليدي للفيديو
حقوق الصورة: أنسبلاش
استمع الى المقالة الآن هذه الخدمة تجريبية
Play Audio Pause Audio

إليكم فيما يلي أربعة أشياء يجب أخذها بعين الاعتبار فيما نحاول استيعاب التطورات المقبلة.

عندما كشفت شركة أوبن أيه آي (OpenAI) الستار عن نموذجها الجديد لإنشاء الفيديو باستخدام الذكاء الاصطناعي التوليدي الذي يحمل اسم “سورا” (Sora) منذ فترة قريبة، دعت مجموعة من صانعي الأفلام إلى تجربته. نشرت الشركة النتائج مؤخراً، وهي سبعة أفلام سريالية قصيرة تشير دون شك إلى أن مستقبل توليد الفيديو باستخدام الذكاء الاصطناعي مقبل وبسرعة.

ظهرت أول دفعة من النماذج التي تحول النصوص إلى فيديو في أواخر عام 2022، من شركات تتضمن ميتا (Meta) وجوجل والشركة الناشئة في مجال تكنولوجيا إنشاء الفيديو باستخدام الذكاء الاصطناعي التوليدي رانواي (Runway). كان تحويل النصوص إلى فيديو حيلة جيدة، لكن النتائج كانت مشوشة، ومليئة بالأخطاء، ولا يتجاوز طولها عدة ثوانٍ وحسب.

بعد 18 شهراً، وصلت أفضل إنتاجات نموذج سورا العالية الدقة والواقعية إلى مستوى رائع إلى درجة دفعت ببعض المراقبين الذين لم يعودوا قادرين على التقاط أنفاسهم إلى التنبؤ بنهاية هوليوود. يستطيع أحدث نماذج رانواي إنتاج مقاطع قصيرة تضاهي إنتاجات ستوديوهات الرسوم المتحركة التي تحتل مراتب متقدمة في شباك التذاكر. أيضاً، تعمل ميدجورني (Midjourney) وستابيليتي أيه آي (Stability AI)، وهما الشركتان اللتان صممتا أكثر نماذج تحويل النصوص إلى صور نجاحاً، على تصميم نماذج مخصصة للفيديو أيضاً.

يسارع عدد من الشركات إلى الاستفادة من هذه الإنجازات من خلال إنشاء مشاريع تجارية، ويحاول معظمها تلمس طريقه نحو هذه الاستفادة دون تخطيط مسبق. يقول الرئيس التنفيذي لشركة فيوند (Vyond) التي تدير منصة لإنتاج مقاطع الرسوم المتحركة القصيرة وفق أسلوب الإشارة والنقر، غاري ليبكوويتز: “سأصرخ بصورة روتينية وأنا أقول: “يا للهول! هذا رائع للغاية” في أثناء تجربة هذه الأدوات. لكن كيف يمكن استخدامها في العمل؟”.

مهما كانت الإجابة عن هذا السؤال، فسوف تؤدي على الأرجح إلى إحداث انقلاب في الكثير من الشركات، وتغيير أدوار العديد من المختصين المهنيين، بدءاً بفناني التحريك وصولاً إلى المعلنين. بدأت مخاوف إساءة الاستخدام تتصاعد هي الأخرى. فعندما يصبح توليد مقاطع الفيديو المزيفة متاحاً على نطاق واسع، سيصبح بالإمكان إغراق الإنترنت بالحروب الدعائية (البروباغاندا) والمواد الإباحية دون موافقة الأشخاص الذين يظهرون فيها على نحو أسهل من أي وقت مضى. بوسعنا أن نتنبأ بحدوث هذا الأمر قريباً، غير أنه لا أحد يمتلك حلولاً ناجعة لهذه المشكلة.

اقرأ أيضاً: كيف تستفيد من الذكاء الاصطناعي في حياتك الشخصية والمهنية بكفاءة؟

ومع سعينا إلى استيعاب ما ينتظرنا لاحقاً، بحلوه ومره، سنتناول فيما يلي أربع مسائل تستحق التفكير. أيضاً، اخترنا مجموعة من أفضل مقاطع الفيديو التي أنتجها صانعو الأفلام باستخدام هذه التكنولوجيا، بما فيها الإعلان الحصري عن “ترتيلة ضحايا معركة سوم” (Somme Requiem)، وهو فيلم قصير تجريبي من إنتاج شركة مايلز (Myles) لإنتاج الأفلام في لوس أنجلوس. تابع القراءة لتكوين فكرة عن الاتجاه الذي يسلكه إنتاج الأفلام باستخدام الذكاء الاصطناعي.

1. سورا ليس سوى البداية

يحتل سورا من أوبن أيه آي حالياً موقع الصدارة في المنافسة القائمة بين نماذج توليد الفيديو، وبفارق كبير. لكن الشركات الأخرى تعمل على تقليص هذا الفارق. وستصبح السوق مكتظة للغاية خلال الأشهر القليلة المقبلة، حيث تعمل شركات أخرى على تحسين تكنولوجياتها، وإطلاق النماذج المنافسة لسورا.

فقد خرجت شركة هايبر (Haiper) الناشئة البريطانية عن صمتها منذ فترة قريبة. تأسست الشركة في 2021 على يد مجموعة من الباحثين السابقين في جوجل ديب مايند (Google DeepMind) وتيك توك (TikTok) الذين كانوا يريدون العمل على تكنولوجيا تحمل اسم “حقول الإشعاع العصبونية” أو “نيرف” (NeRF) اختصاراً، وهي مخصصة لتحويل الصور الثنائية الأبعاد إلى بيئات افتراضية ثلاثية الأبعاد. كانوا يعتقدون أن أداة تحول اللقطات السريعة إلى مشاهد يمكن للمستخدمين التدخل فيها ستكون مفيدة في إنتاج ألعاب الفيديو،

لكن هايبر انتقلت منذ ستة أشهر من البيئات الافتراضية إلى مقاطع الفيديو، حيث عدّلت تكنولوجيتها حتى تتكيف مع ما يعتقد رئيسها التنفيذي، ييشو مياو، أنها ستكون سوقاً أكبر حتى من سوق الألعاب. يقول مياو: “أدركنا أن توليد الفيديو يمثّل الحل الأمثل، وسيشهد هذا المجال زيادة هائلة في الطلب”.

على غرار سورا من أوبن أيه آي، تعتمد تكنولوجيا هايبر في إنشاء الفيديو باستخدام الذكاء الاصطناعي التوليدي على نموذج انتشار يدير العناصر المرئية، ومُحَوِّل (transformer) وهو المكون الذي يجعل النماذج اللغوية الكبيرة مثل جي بي تي 4 (GPT-4) بارعة للغاية في التنبؤ بالكلمات التالية لإدارة الاتساق بين اللقطات. يقول مياو: “تمثّل مقاطع الفيديو مجموعة من البيانات المتسلسلة، وتمثّل المحولات أفضل نموذج لتَعَلّم هذا التسلسل”.

يمثّل الاتساق تحدياً كبيراً في توليد الفيديو، ويُعدّ السبب الرئيسي الذي يجعل الأدوات الحالية قادرة على إنتاج مقاطع فيديو يبلغ طولها عدة ثوانٍ وحسب. ويُتيح استخدام المحولات في توليد الفيديو تعزيز الجودة وزيادة طول المقاطع. أمّا الناحية السلبية فهي أن المحولات تميلُ إلى اختلاق الأشياء في ظاهرة تعرف باسم “الهلوسة”. قد لا تكون هذه الظاهرة واضحة على الدوام في النصوص. أمّا في مقاطع الفيديو، فقد تؤدي إلى ظهور شخص بعدة رؤوس على سبيل المثال. يتطلب الحفاظ على سلامة عمل المحولات الاعتماد على كميات ضخمة من بيانات التدريب، واستخدام قدرات حاسوبية هائلة.

ولهذا السبب، قررت شركة إريفيرينت لابز (Irreverent Labs)، التي أسستها مجموعة من الباحثين الذين كانوا يعملون في شركة مايكروسوفت، أن تعتمد على أسلوب مختلف. كانت إريفيرينت لابز، على غرار هاربر، تعمل في بداياتها في توليد بيئات الألعاب، قبل الانتقال إلى توليد مقاطع فيديو كاملة. لكن الشركة لا ترغب في السير مع التيار من خلال محاولة تقليد أوبن أيه آي وغيرها. يقول المؤسس المشارك والرئيس التنفيذي للتكنولوجيا في إريفيرينت لابز، ديفيد راسكينو: “إذا حاولنا تقليد الآخرين، ستتحول المواجهة إلى معركة في مجال الحوسبة، حيث ستندلع حرب تتعلق بوحدات معالجة الرسوميات. وهناك فائز واحد فقط في هذا السيناريو، وهو يرتدي سترة جلدية” (في إشارة إلى الرئيس التنفيذي لشركة إنفيديا [Nvidia] العملاقة في مجال إنتاج الرقاقات الإلكترونية التي تبلغ قيمتها تريليون دولار، جينسن هوانغ).

لا تعتمد تكنولوجيا إريفيرينت على محول، بل تعتمد بدلاً من ذلك على دمج نموذج انتشار مع نموذج يتنبأ باللقطة التالية في الفيديو بناءً على فيزياء المنطق السليم، مثل الطريقة التي تقفز وفقها الكرة أو الطريقة التي يتناثر فيها الماء على الأرض. يقول راسكينو إن هذا النهج يحد من تكاليف التدريب، ويحد من الهلوسات أيضاً. ما زال النموذج ينتج بعض الأخطاء، غير أنها أخطاء فيزيائية (مثل كرة تقفز في مسار غير منحنِ وانسيابي) ويمكن إصلاحها من خلال تطبيق تعديلات رياضية معروفة على الفيديو بعد توليده، كما يقول.

سنكتشف لاحقاً أي نهج سيستمر. يقارن مياو التكنولوجيا الحالية بالنماذج اللغوية الكبيرة على غرار جي بي تي 2 (GPT-2). فمنذ خمسة أعوام، أطلقت أوبن أيه آي هذا النموذج المبكر الثوري الذي أصاب الجميع بالدهشة، لأنه أظهر لهم الاحتمالات الممكنة. لكن هذه التكنولوجيا لم تصل إلى مستوى إحداث تغييرات جذرية إلّا بعد عدة أعوام إضافية.

ينطبق هذا على توليد الفيديو، كما يقول مياو: “ما زلنا جميعاً في المراحل الأولى”.

اقرأ أيضاً: كيف تضيف مؤثرات صوتية إلى الفيديوهات باستخدام الذكاء الاصطناعي؟

2 ماذا سيفعل الناس بتكنولوجيا إنشاء الفيديو باستخدام الذكاء الاصطناعي التوليدي؟

يمثّل الفيديو الوسيلة الأكثر انتشاراً على الإنترنت. ولهذا من المتوقع أن نرى مقاطع الفيديو الاصطناعية تظهر في كل مكان يعرض مقاطع الفيديو حالياً، مثل منصات يوتيوب وتيك توك (TikTok)، والنشرات الإخبارية، والإعلانات، وغير ذلك.

يُعدّ قطاع التسويق واحداً من أكثر القطاعات المتحمسة لتبنّي تكنولوجيا الذكاء الاصطناعي التوليدي. فقد أجرى عدد كبير من متخصصي التسويق، بنسبة تصل إلى الثلثين، تجارب على الذكاء الاصطناعي التوليدي في إطار العمل، وذلك وفقاً لاستطلاع حديث للرأي أجرته شركة أدوبي (Adobe) في الولايات المتحدة، حيث قال أكثر من نصف المشاركين إنهم استخدموا هذه التكنولوجيا لإنتاج الصور.

يمثّل إنشاء مقاطع الفيديو باستخدام الذكاء الاصطناعي التوليدي الخطوة التالية. وقد نشرت بعض شركات التسويق أفلاماً قصيرة كي تُظهر القدرات الكامنة لهذه التكنولوجيا. ويُعدّ فيلم “ترتيلة ضحايا معركة سوم” الذي أنتجته مايلز أحدث الأمثلة على هذه الأفلام. يمكنك مشاهدة هذا الفيلم أدناه في كشف حصري من موقع إم آي تي تكنولوجي ريفيو.

ترتيلة ضحايا معركة سوم” هو فيلم قصير من إنتاج شركة الإنتاج مايلز في لوس أنجلوس. وقد وُلِّدت كل لقطة فيه باستخدام نموذج جين 2 (Gen 2) من رانواي. بعد ذلك، أجرى فريق من محرري الفيديو في مايلز عمليات تحرير الفيديو المطلوبة لربط مقاطع الفيلم معاً.

يتحدث الفيلم عن جنود محاطين بالثلوج خلال هدنة إطلاق النار في عيد الميلاد خلال الحرب العالمية الأولى عام 1914. يتكون الفيلم من العشرات من اللقطات المختلفة التي أُنتِجَت باستخدام نموذج توليدي لإنشاء الفيديو من رانواي، والتي تولى محررو الفيديو البشر في مايلز تجميعها معاً، وأخضعوها لعملية تصحيح لوني، وأضافوا إليها الموسيقى. يقول المؤسس والرئيس التنفيذي للشركة جوش كان: “سيمثّل سير إجراءات العمل الهجينة مستقبل رواية القصص”.

اختار كان فترة الحرب ليوضح نقطة معينة. يشير كان إلى أن المسلسل الذي عرضته منصة المشاهدة آبل تي في بلس (Apple TV +) باسم “أسياد الجو” (Masters of the Air)، الذي يتحدث عن مجموعة من الطيارين في الحرب العالمية الثانية، كلف 250 مليون دولار. أمّا الفريق الذي أنتج وثائقي الحرب العالمية الأولى من إخراج بيتر جاكسون باسم “لن يكبروا” (They Shall Not Grow Old)، فقد أمضى سنوات في إجراء عمليات التنسيق والترميم لأكثر من 100 ساعة من الأفلام الأرشيفية. يقول كان: “ليس بوسع معظم صانعي الأفلام إلّا أن يحلموا بفرصة رواية قصة من هذا النوع”.

ويُضيف قائلاً: “كانت صناعة الأفلام المستقلة في طريقها إلى الاندثار تقريباً. وأعتقد أن هذه التكنولوجيا ستؤدي إلى نهضة جديدة لها”.

يأمل راسكينو في أن يحدث هذا. ويقول: “تمثّل فئة أفلام الرعب المجال الذي يختبر فيه صانعو الأفلام أشياء جديدة، ويجرون التجارب باستمرار إلى أن يتوصلوا إلى نتائج حاسمة، مهما كانت. وأعتقد أننا سنرى فيلم رعب ناجحاً أنتجته مجموعة من 4 أشخاص باستخدام الذكاء الاصطناعي في أحد الأقبية”.

اقرأ أيضاً: كيف يؤثر الذكاء الاصطناعي في صناعة الأفلام؟

إذاً، هل ستقضي تكنولوجيا إنشاء الفيديو باستخدام الذكاء الاصطناعي التوليدي على هوليوود؟ ليس بعد. فاللقطات الاستهلالية في فيلم “ترتيلة ضحايا معركة سوم” –حيث تظهر غابات خاوية، ومخيم عسكري مهجور- تبدو رائعة. لكن الأشخاص في هذا الفيلم ما زالوا يظهرون بأصابع عوجاء ووجوه مشوهة، وهذه هي السمات المميزة لهذه التكنولوجيا. تقدّم تكنولوجيا إنشاء الفيديو باستخدام الذكاء الاصطناعي التوليدي أفضل نتائجها في اللقطات ذات الزاوية الواسعة، أو اللقطات القريبة الطويلة، ما يخلق جواً مخيفاً لكن مع قليل من الحركة. لو كان هذا الفيلم أطول، لأصبح مملاً.

لكن اللقطات الاستهلالية تظهر طوال الوقت في الأفلام السينمائية الطويلة. وعلى الرغم من أن طول معظمها لا يتجاوز بضع ثوانٍ وحسب، فإن تصويرها قد يستغرق ساعات طويلة. يشير راسكينو إلى أن النماذج التوليدية لإنشاء الفيديو قد تُستَخدم قريباً في إنتاج هذه اللقطات البينية، وبجزء بسيط من تكلفتها الحالية. وقد تتحول هذه العملية إلى عملية سريعة تتخلل مراحل الإنتاج اللاحقة، دون الحاجة إلى أي إعادة للتصوير.

وبالنسبة إلى الرئيس التنفيذي للتكنولوجيا في شركة جين ديجيتال (Gen Digital) العملاقة في مجال الأمن السيبراني التي أطلقت مجموعة من العلامات التجارية لبرامج مكافحة الفيروسات مثل نورتون (Norton) وأفاست (Avast)، ميشال بيتشوتشيك، فإن وجهة النظر هذه صحيحة. ويقول: “أعتقد أن هذا هو المسار الذي ستسلكه هذه التكنولوجيا. سنشهد ظهور الكثير من النماذج المختلفة، التي دُرِّب كل منها على مجال معين في عملية إنتاج الأفلام. وستكون هذه النماذج مجرد أدوات تستخدمها فرق موهوبة متخصصة في إنتاج الفيديو”.

لكننا لم نصل إلى هذه المرحلة بعد. تكمن أكبر مشكلات إنشاء الفيديو باستخدام الذكاء الاصطناعي التوليدي في نقص الأدوات التي تُتيح للمستخدم التحكم في المخرجات. كما أن إنتاج الصور الثابتة ما زال عملية غير مؤكدة، قد تكون خبط عشواء، أمّا إنتاج مقطع فيديو بطول بضع ثوانٍ فهو عملية تنطوي حتى على قدر أكبر من المجازفة.

يقول مياو: “حالياً، لا تزال هذه التكنولوجيا مجرد عملية مسلية تؤدي إلى لحظات من النجاح العَرَضي، غير أن إنتاج مقطع فيديو متوافق تماماً مع تصوّر محدد ومرغوب يمثّل معضلة تقنية صعبة للغاية. وما زلنا بعيدين عن توليد مقاطع فيديو طويلة ومتسقة بناءً على أمر نصي واحد”.

لهذا السبب، يعتقد ليبكاويتز من فيوند أن التكنولوجيا ما زالت غير جاهزة في نظر معظم العملاء من الشركات. فهؤلاء المستخدمون يريدون التحكم في شكل الفيديو بدرجة أعلى بكثير مما تُتيحه الأدوات الحالية لهم، كما يقول.

تستخدم آلاف الشركات من أنحاء العالم كافة، التي يُصنف 65% منها على أنها شركات فورتشن 500، منصة فيوند لإنشاء مقاطع رسوم متحركة لأغراض التواصل والتدريب والتسويق وغير ذلك داخل الشركة. تعتمد فيوند على مجموعة من النماذج التوليدية، بما فيها نماذج لتحويل النصوص إلى صور وتحويل النصوص إلى صوت، لكنها تقدّم واجهة استخدام بسيطة تعتمد على أسلوب السحب والإفلات، وتُتيح للمستخدمين تجميع أجزاء مقطع فيديو يدوياً، جزءاً تلو الآخر، بدلاً من توليد مقطع كامل بنقرة زر واحدة.

يقول ليبكاويتز إن استخدام النموذج التوليدي أقرب إلى رمي حجر النرد. ويقول: “يمثّل هذا عاملاً منفراً للغاية في نظر معظم فرق إنتاج الفيديو، لا سيّما في قطاع الشركات، حيث يجب أن يكون كل شيء مثالياً حتى على مستوى البيكسل الواحد ومتوافقاً تماماً مع العلامة التجارية. وإذا تبين وجود عيوب في الفيديو، مثل ظهور أصابع زائدة لدى بعض الشخصيات، أو شعار شركة ملون بلون خاطئ، فهذه مع الأسف النتائج المتوقعة من طريقة عمل الذكاء الاصطناعي التوليدي”.

اقرأ أيضاً: لماذا تستبدل شركات التكنولوجيا موظفيها بأدوات الذكاء الاصطناعي؟

ما الحل؟ استخدام المزيد من البيانات وإجراء المزيد من عمليات التدريب، وتكرار هاتين الخطوتين. يقول مياو: “أتمنى أن أتمكن من الإشارة إلى بعض الخوارزميات المتطورة التي يمكن الاعتماد عليها، لكنها غير موجودة، وسيقتصر الأمر على إجراء عمليات تعلم إضافية كثيرة”.

3. المعلومات المزيفة ليست بالأمر الجديد لكن المزيفات العميقة ستؤدي إلى تفاقم هذه المشكلة

فقد أدّت المعلومات المزيفة المنتشرة على الإنترنت إلى تقويض ثقتنا بالإعلام والمؤسسات وببعضنا بعضاً على مدى سنوات. يخشى البعض أن إضافة مقاطع الفيديو المزيفة إلى هذا المشهد المتشابك ستؤدي إلى تدمير ما تبقى من الركائز التي تدعم وجود واقع مشترك.

يقول بيتشوتشيك: “لقد استعضنا عن الثقة بالشك والارتباك والخوف والكراهية. وفي غياب الحقائق المثبتة، سيتفكك المجتمع”.

يشعر بيتشوتشيك بالقلق على وجه الخصوص إزاء الاستخدام المسيء للمزيفات العميقة في الانتخابات. فخلال انتخابات العام الماضي في سلوفاكيا، على سبيل المثال، نشر المهاجمون مقطع فيديو مزيفاً ظهر فيه المرشح الرئيسي وهو يناقش خططاً للتلاعب بالناخبين. كان مقطع الفيديو منخفض الجودة، وكان من السهل كشفه على أنه مقطع يتضمن تزييفاً عميقاً. لكن بيتشوتشيك يعتقد أنه كان كافياً لقلب النتيجة لصالح المرشحين الآخرين.

يعتقد قائد فرق الاستراتيجية والابتكار في شركة بلاكبيرد أيه آي (Blackbird AI) المختصة بتتبع انتشار المعلومات المزيفة على الإنترنت وإدارتها، جون ويسينغر، أن مقاطع الفيديو المزيفة ستكون أكثر إقناعاً عندما تمزج بين اللقطات الحقيقية والمزيفة. لنتأمل مقطعي فيديو يصوران الرئيس الأميركي جو بايدن وهو يمشي على منصة مسرح على سبيل المثال. يتعثر الرئيس بايدن في أحد المقطعين، ولا يتعثر في الآخر. كيف نُميّز المقطع الحقيقي من المزيف؟

يقول ويسينغر: “لنفترض أن حدثاً ما وقع بالفعل، لكنه عُرض على الجمهور بطريقة مختلفة قليلاً. يمكن أن يؤدي هذا إلى التأثير في الاستجابة العاطفية التي يُثيرها هذا المقطع”. يشير بيتشوتشيك إلى أن مقطع الفيديو المزيف يمكن أن يحدث أثراً حتى لو لم يكن عالي الجودة. فالمقطع المزيف الرديء والمتوافق مع التحيزات القائمة قد يُحدِث ضرراً أكبر من مقطع عالي الجودة ويتعارض مع هذه التحيزات، كما يقول ويسينغر.

ولهذا، تركّز بلاكبيرد على تحديد هوية الأطراف التي تنشر هذه المواد وطبيعة هذه المواد والأطراف المستهدفة بهذا النشر. يمكن القول إنه لا يهم إن كانت المعلومات حقيقية أم مزيفة بقدر أهمية المصدر الذي وردت منه وكيفية انتشارها على حد تعبير ويسينغر. تعمل شركته حالياً على تتبع المعلومات المزيفة التي تعتمد على تكنولوجيات بسيطة، مثل منشورات وسائل التواصل الاجتماعي التي تعرض صوراً حقيقية خارج سياقها الصحيح. وعلى الرغم من أن تكنولوجيات الذكاء الاصطناعي التوليدي أدّت إلى تفاقم الوضع، فإن مشكلة وجود أشخاص يعرضون وسائط وموادَّ إعلامية بطرق مضللة، سواء على نحو متعمد أو غير ذلك، ليست بالمشكلة الجديدة.

وإذا أضفنا البوتات التي تشارك المعلومات المزيفة وتروّج لها على شبكات التواصل الاجتماعي إلى هذا المشهد، فسوف يؤدي هذا إلى زيادة الطين بلة. إن مجرد إدراك وجود وسائط ومواد إعلامية مزيفة سيؤدي إلى زرع بذور الشك في الحوار القائم أساساً على سوء النية. يقول ويسينغر: “يمكن أن نرى أننا سنصل قريباً جداً إلى مرحلة يصبح فيها من المستحيل التمييز بين المعلومات الحقيقية والمعلومات المزيفة”.

4. نحن نواجه واقعاً جديداً على الإنترنت

ستنتشر المواد المزيفة قريباً في كل مكان، بدءاً من حملات المعلومات المزيفة، مروراً بالإعلانات، وانتهاء بأفلام هوليوود التي تتصدر شباك التذاكر. فما الذي يمكن أن نفعله حتى نُميّز الحقيقي من المزيف؟ ثمة بعض الحلول المتاحة، لكن لن يؤدي أي منها إلى نتيجة بمفرده.

تعمل صناعة التكنولوجيا على حل هذه المشكلة. تحاول معظم الأدوات التوليدية فرض شروط استخدام معينة، مثل منع المستخدمين من إنتاج مقاطع فيديو لشخصيات عامة. لكن ثمة وسائل للالتفاف على هذه الفلاتر، كما أن النسخ المفتوحة المصدر من هذه الأدوات تعمل وفق سياسات أكثر تساهلاً.

تعمل الشركات أيضاً على تطوير معايير لوسم الوسائط التي ينتجها الذكاء الاصطناعي بعلامات مائية وتطوير أدوات من أجل كشف هذه الوسائط. لكن الأدوات لا تضيف كلها علامات مائية، كما أنه من الممكن تجريد البيانات الوصفية للفيديو من العلامات المائية. إضافة إلى ذلك، لا توجد أدوات كشف موثوقة حتى الآن. وحتى لو أثبتت هذه الأدوات فاعليتها، فسوف تتحول إلى جزء من لعبة مطاردة بين القط والفأر، حيث تحاول مجاراة تطورات النماذج المصممة كي تضبطها.

تمتلك المنصات العاملة على الإنترنت مثل إكس (X) وفيسبوك سجلاً متواضعاً من الإنجازات فيما يتعلق بمراقبة انضباط المحتوى. وليس لدينا ما يدعونا إلى الاعتقاد بأنها ستقدّم أداءً أفضل في مواجهة هذه المشكلة عندما تتفاقم. كان مياو يعمل في تيك توك، حيث ساعد على بناء أداة مراقبة تكشف مقاطع الفيديو التي يرفعها المستخدمون على المنصة والتي تنتهك شروط الاستخدام في تيك توك. حتى إنه يشعر بالقلق من المستقبل. ويقول: “ثمة خطر حقيقي كامن. لا تثق بأي شيء تراه على كمبيوترك المحمول”.

طوّرت بلاكبيرد أداة تُسمَّى “كومباس” (Compass)، وهي تُتيح التحقق من صحة المقالات ومنشورات وسائل التواصل الاجتماعي. ويكفي لصق رابط ضمن هذه الأداة حتى يعمل نموذج لغوي كبير على توليد ملخص مستقي من مصادر موثوقة على الإنترنت (وهذه المصادر متاحة للتدقيق على الدوام، كما يقول ويسينغر) لتوفير سياق يتعلق بالمادة الموجودة في الرابط. هذه النتيجة شبيهة للغاية بالملاحظات التي يقدّمها مجتمع المستخدمين والتي ترتبط في بعض الأحيان بالمنشورات المثيرة للجدل على مواقع مثل إكس وفيسبوك وإنستغرام. وتعتزم الشركة جعل كومباس يتولى توليد ملاحظات مجتمع المستخدمين بشأن أي شيء. يقول ويسينغر: “نعمل على تحقيق هذا الأمر”ـ

لكن الأشخاص الذين يضعون الروابط في مواقع تدقيق الحقائق يتمتعون بخبرة كبيرة في هذا المجال في المقام الأول، وقد يجهل كثيرون وجود هذه الأدوات، أو قد لا يميلون إلى الثقة بها. أيضاً، عادة ما يكون نطاق انتشار المعلومات المزيفة أوسع بكثير من نطاق انتشار أي تصحيح لاحق.

في هذه الأثناء، ما زال الخلاف قائماً بشأن الجهة التي يجب أن تتحمل مسؤولية مواجهة هذه المشكلة في المقام الأول. يقول بيتشوتشيك إنه يجب على الشركات التكنولوجية أن تجعل برمجياتها مفتوحة المصدر حتى تسمح بدرجة أعلى من المنافسة في مجال الأمان والثقة. وهو ما سيسمح أيضاً لشركات الأمن السيبراني، مثل شركته، بتطوير برمجيات طرف ثالث لمراقبة هذه التكنولوجيا. هذا ما حدث منذ 30 سنة عندما أصيب نظام التشغيل ويندوز (Windows) بمشكلة برمجيات خبيثة، كما يقول: “سمحت مايكروسوفت لشركات برامج مكافحة الفيروسات بالتدخل حتى تساعد على حماية ويندوز. ولهذا، أصبح عالم الإنترنت أكثر أماناً”.

لكن بيتشوتشيك ليس متفائلاً إلى درجة كبيرة. ويقول: “يجب على مطوري التكنولوجيا أن يبنوا أدواتهم على أساس منح الأولوية لعامل الأمان. لكن الكثيرين يفكرون في كيفية زيادة قدرات هذه التكنولوجيا، بدلاً من التفكير في كيفية جعلها أكثر أماناً”.

ثمة مقولة شائعة تسود صناعة التكنولوجيا تعبّر عن الاستسلام للقدر: التغير قادم لا محالة، ويجب أن نتعامل معه. يقول راسكينو: “لا يمكن التراجع عن ابتكار الذكاء الاصطناعي التوليدي، فقد بات واقعاً لا يمكن التهرب منه. لدي وجهة نظر قد لا تحظى بشعبية كبيرة، لكنني أعتقد أنها صحيحة: لا أعتقد أن الشركات التكنولوجية قادرة على تحمل العبء الكامل للتعامل مع مشكلات هذه التكنولوجيا. ففي نهاية المطاف، لا يوجد دفاع يتصدى لمشكلات أي تكنولوجيا أفضل من جمهور يتمتّع بثقافة جيدة، وليس هناك طريق مختصر للالتفاف حول هذه المسألة”.

يتفق مياو مع وجهة النظر هذه. ويقول: “سنتبنى التكنولوجيا التوليدية على نطاق واسع للغاية، وهو أمر محتوم دون شك. لكن المسؤولية تقع أيضاً على عاتق المجتمع بأكمله. ويتعين علينا تثقيف العامة”.

ويُضيف قائلاً: “لا مفر من التعامل مع تطور التكنولوجيا، ويجب أن نكون مستعدين لهذا التغيير. يجب أن نذكّر أهالينا وأصدقاءنا بأن الأشياء التي يرونها على شاشاتهم قد لا تكون حقيقية”. هذا صحيح على وجه الخصوص بالنسبة للأجيال الأكبر سناً، كما يقول: “يجب أن يصبح أهالينا مدركين لهذا الخطر. وأعتقد أنه يجب أن نتعاون على مواجهته معاً”.

سيتعين علينا العمل معاً وعلى وجه السرعة. فعندما ظهر سورا قبل شهر تقريباً، صُعِق عالم التكنولوجيا بسرعة تقدم تكنولوجيا إنشاء الفيديو باستخدام الذكاء الاصطناعي التوليدي. لكن الأغلبية العظمى من الناس لم تدرك حتى أن هذا النوع من التكنولوجيا موجود في المقام الأول، كما يقول ويسينغر: “لا يفهم العامة فعلياً مسارات التوجهات التكنولوجية الحالية. وأعتقد أن هذه التكنولوجيا ستحدث صدمة كبيرة على مستوى العالم”.