أداة جديدة تكتشف الفيديوهات المولَّدة بالذكاء الاصطناعي بدقة فائقة

2 دقيقة
أداة جديدة تكتشف الفيديوهات المولدة بالذكاء الاصطناعي بدقة فائقة
حقوق الصورة: shutterstock.com/VectorMine

طوّر باحثون من كلية الهندسة والعلوم التطبيقية في جامعة كولومبيا أداة جديدة تُسمَّى "ديفيد" (DIVID)، تكشف الفيديوهات المزيفة التي أُنشئت عبر أدوات توليد الفيديو بالذكاء الاصطناعي، ما يُتيح تمييزها عن المقاطع التي ينتجها البشر.

أداة ديفيد تكشف عن الجيل الجديد من أدوات توليد الفيديو

يجد البشر اليوم صعوبة في تمييز مقاطع الفيديو المولَّدة عبر أدوات الذكاء الاصطناعي؛ إذ أصبحت واقعية للغاية، وبدأ البعض باستخدامها لأغراض غير أخلاقية أو بغرض السرقة وغيرها. 

دفع هذا بالباحثين في كلية الهندسة والعلوم التطبيقية بجامعة كولومبيا إلى تطوير أداة تكشف الفيديوهات المزيفة عن الحقيقية، وأطلقوا عليها اسم "ديفيد" (DIVID) اختصاراً للعبارة الإنجليزية (DIffusion-generated VIdeo Detector) التي تعني "كاشف الفيديو الناتج عن الانتشار"، وقد نُشِرت الورقة البحثية الخاصة بالأداة على خادم ما قبل الطباعة (arXiv)، وقُدِمت في مؤتمر الرؤية الحاسوبية والتعرف إلى الأنماط (CVPR) في سياتل في 18 يونيو/حزيران 2024.

يستخدم الجيل الجديد من أدوات توليد الفيديو بالذكاء الاصطناعي مثل سورا Sora من أوبن إيه آي، ما يُسمَّى "نموذج الانتشار" لإنشاء صور ومقاطع فيديو من خلال تحويل الضوضاء العشوائية تدريجياً إلى صورة واضحة وواقعية. ويعمل على تحسين كل إطار على حدة مع ضمان انتقالات سلسة، ما ينتج فيديوهات عالية الجودة وواقعية، يصعب تمييزها عن مقاطع الفيديو الحقيقية.

للكشف عن الفيديوهات الناتجة عن نموذج الانتشار، استخدم الباحثون تقنية تُسمَّى "DIRE" (خطأ إعادة بناء الانتشار)، تقيس الاختلاف بين صورة الدخل وصورة الخرج المقابلة التي أُعيد بناؤها بوساطة نموذج انتشار مدرَّب مسبقاً.

اقرأ أيضاً: كيف يمكنك كشف فيديوهات التزييف العميق بسهولة؟

كيف تكشف أداة ديفيد عن الفيديوهات المولَّدة بالذكاء الاصطناعي؟

بُني نموذج ديفيد بدءاً من نموذج آخر طوّره فريق البحث ذاته، يُسمَّى "رايدار" (Raidar)؛ وهو تقنية تكشف النصوص التي ولّدها الذكاء الاصطناعي من خلال تحليل النص نفسه، دون الحاجة إلى الوصول إلى العمليات الداخلية لنماذج اللغة الكبيرة مثل تشات جي بي تي 4 من أوبن إيه آي وجيميناي من جوجل.

يستخدم رايدار نموذجاً لغوياً لإعادة صياغة نص أو تغييره، ثم يقيس عدد التعديلات التي يجريها على النص المُعطى. تعني التعديلات الكثيرة أن النص مكتوب من قِبل البشر، بينما تعني التعديلات الأقل أن النص مكتوب آلياً.

يعتمد رايدر على فكرة أن نموذج الذكاء الاصطناعي يُعدّ النص الناتج عن نموذج ذكاء اصطناعي آخر عالي الجودة؛ ومن ثَمّ يُجري عليه القليل من التعديلات.

بطريقة مماثلة، أنشأ الباحثون نموذج ديفيد الذي يمكنه اكتشاف مقاطع الفيديو العالية الدقة الناتجة عن نماذج الذكاء الاصطناعي التوليدي المبنية على نظام الانتشار، إذ تعيد تقنية ديفيد بناء مقطع فيديو، ثم تقارن الفيديو المعاد بناؤه مع الفيديو الأصلي. وبالاعتماد على فكرة أن الصور المعاد بناؤها والتي أُنشئت بوساطة نماذج الانتشار يجب أن يشبه بعضها بعضاً، يمكن كشف الفيديو الحقيقي عن الفيديو المنتج باستخدام أدوات الذكاء الاصطناعي.

وبالطريقة ذاتها المطبقة على النصوص، تشير التغييرات الكبيرة إلى أن الفيديو الأصلي من صُنع الإنسان، بينما تشير التغييرات القليلة العدد إلى أن الفيديو من صنع الذكاء الاصطناعي.

بهذه الطريقة، حققت أداة ديفيد دقة اكتشاف تصل إلى 93.7% لمقاطع الفيديو المولَّدة بالانتشار من نماذج توليد الفيديو مثل سورا وستيبل فيجن ديفيوجن (Stable Vision Diffusion) وبيكا (Pika) وجين 2 (Gen-2).

اقرأ أيضاً: ابتكار أداة جديدة يمكنها كشف التزييف العميق في الفيديوهات المضللة للمشاهير

أداة ديفيد عبارة عن سطر أوامر تحلل مقطع الفيديو وتحدد إذا ما كان من صُنع الذكاء الاصطناعي أو من صنع الإنسان، وما زالت محدودة الاستخدام من قِبل المطورين فقط، ولا يمكن للجميع استخدامها. يمكنها التكامل مع تطبيق زوم للكشف عن المكالمات المزيفة في الوقت الفعلي، لكن يفكر فريق الباحثين في تطويرها لتصبح على شكل إضافة لمواقع الويب أو المتصفح لتصبح متاحة للجميع، وتمكّنهم من كشف الفيديوهات المولدة بالذكاء الاصطناعي. بالإضافة إلى ذلك، يعمل الفريق على تحسين الأداة لتتمكن من كشف مقاطع الفيديو المولّدة من أدوات الذكاء الاصطناعي المختلفة جميعها.