كيف استخدمت أوبن أيه آي فيديوهات يوتيوب دون إذن لتدريب نماذجها؟

تعرضت شركة أوبن أيه آي (OpenAI) الأميركية المعروفة بنماذجها القوية لانتقادات شديدة بعد مزاعم استخدامها كميات هائلة من البيانات المحمية بحقوق الطبع والنشر بغرض تدريب نماذج الذكاء الاصطناعي الخاصة بها، ومن بين هذه البيانات، ملايين مقاطع الفيديو المنشورة على موقع يوتيوب، وقد أثارت هذه الممارسة غضب شركة جوجل المالكة لموقع يوتيوب، وأدّت إلى اتهامات بانتهاك حقوق الطبع والنشر وانتهاك شروط خدمة يوتيوب.

هل استخدمت أوبن أيه آي فيديوهات يوتيوب لتدريب نماذجها؟

أشار العديد من التقارير إلى أن شركة أوبن أيه آي ربما نسخت الأصوات والتسميات التوضيحية من ملايين مقاطع الفيديو المنشورة على يوتيوب، لتدريب نماذجها اللغوية الكبيرة (LLMs).

تتطلب هذه النماذج، مثل جي بي تي-4 (GPT-4)، كميات هائلة من البيانات النصية لتعلم كيفية معالجة المعلومات وإنشاء نصوص ذات جودة عالية.

في حين أن أوبن أيه آي لم تؤكد هذه الممارسة بشكلٍ صريح. وذكرت صحيفة نيويورك تايمز أن حجم البيانات يشير إلى أن موقع يوتيوب كان مصدراً رئيسياً.

وقالت الصحيفة الأميركية إن أوبن أيه آي بدأت استخدام فيديوهات يوتيوب لتدريب نموذج تحويل الصوت إلى نص ويسبر (Whisper)، كما نسخت أكثر من مليون ساعة من فيديوهات يوتيوب لتدريب نموذج جي بي تي-4.

وأشارت الصحيفة إلى أن المسؤولين في أوبن أيه آي كانوا يعلمون أن هذا ليس صحيحاً من الناحية القانونية، لكنهم ظنوا بأنهم يستطيعون تجنب المساءلة القانونية تحت ما يُعرف باسم الاستخدام العادل.

لماذا استخدمت أوبن أيه آي فيديوهات يوتيوب؟

هناك عدة أسباب تجعل موقع يوتيوب بمثابة مصدر جذاب لبيانات تدريب نماذج الذكاء الاصطناعي، أبرزها أن الحجم الهائل للبيانات على يوتيوب لا مثيل له، بالإضافة إلى وجود مجموعة متنوعة من المحتوى، تشمل مواضيع ولغات مختلفة. يُعدّ هذا التنوع أمراً بالغ الأهمية لتدريب نماذج الذكاء الاصطناعي على فهم مجموعة واسعة من المطالبات والأسئلة والرد عليها.

بالإضافة إلى ذلك، غالباً ما يكون محتوى فيديوهات يوتيوب حوارياً وغير رسمي، ما يعكس استخدام اللغة في العالم الحقيقي. يمكن أن يكون لهذا الطابع غير الرسمي قيمة لتدريب الذكاء الاصطناعي الذي يهدف إلى التفاعل مع البشر بطريقة طبيعية.

هل يشكّل استخدام فيديوهات يوتيوب مخالفة قانونية؟

للإجابة عن هذا السؤال، علينا النظر في قضيتين رئيسيتين: حقوق الطبع والنشر وشروط الخدمة.

أولاً، يمنح قانون حقوق الطبع والنشر منشئي المحتوى حقوقاً حصرية في استخدام محتواهم. وفي حين أن نسخ المحتوى المتاح للجمهور قد يبدو أمراً مسموحاً به، إلّا أن ذلك يجب أن يتم حصراً بعد أخذ موافقة منشئ المحتوى بشكلٍ صريح وخطي.

ثانياً، تفرض شروط خدمة يوتيوب التي وضعتها شركة جوجل قيوداً على كيفية استخدام الجهات الخارجية فيديوهات يوتيوب، يشمل ذلك منع جمع المحتوى على نطاق واسع لأي غرض.

لا يزال الوضع القانوني المتعلق ببيانات تدريب الذكاء الاصطناعي غير واضح، ولا توجد سابقة لهذه الحالة المحددة. ومع ذلك، إذا ثبت أن أوبن أيه آي استخدمت فيديوهات يوتيوب دون موافقة الموقع ومنشئي المحتوى، فإن ذلك سيعتبر انتهاكاً لشروط يوتيوب، يترتب على ذلك رفع دعاوى قضائية من قِبل شركة جوجل ومالكي المحتوى ضد أوبن أيه آي.

ماذا سيحدث إذا أُدينت أوبن أيه آي؟

قد تكون العواقب المترتبة على إدانة شركة أوبن أيه آي كبيرة. فيما يلي بعض التداعيات المحتملة:

الغرامات المالية: يمكن أن تؤدي الدعاوى القضائية المتعلقة بانتهاك حقوق الطبع والنشر إلى فرض غرامات مالية باهظة، اعتماداً على كمية البيانات التي استُخدمت والأضرار المحتملة الناجمة عن ذلك حسب تقييم المحكمة.
قيود البيانات: قد تُمنع أوبن أيه آي من استخدام فيديوهات يوتيوب في المستقبل، ما يعوق قدرتها على تطوير نماذج الذكاء الاصطناعي.
تشويه السمعة: يمكن أن تؤدي إدانة أوبن أيه آي إلى تشويه سمعتها وإثارة المخاوف بشأن الآثار الأخلاقية لممارساتها، هذا الأمر قد يجعل بعض العملاء يحجمون عن استخدام نماذج الشركة ويبحثون عن نماذج تقدّمها شركات منافسة.
التأثير على تطوير الذكاء الاصطناعي: ستشكّل الإدانة القانونية لأوبن أيه آي سابقة تثّبط المحاولات المماثلة لاستخدام بيانات الويب المتاحة للجمهور لتدريب نماذج الذكاء الاصطناعي. هذا يمكن أن يعوق تقدم أبحاث الذكاء الاصطناعي ويجعل تدريب النماذج أكثر تكلفة.

يُسلّط الجدل الدائر حول استخدام شركة أوبن آيه آي فيديوهات يوتيوب الضوء على الاعتبارات القانونية والأخلاقية المعقدة المتعلقة باستخدام البيانات المتاحة على الإنترنت لتدريب الذكاء الاصطناعي. ربما كان نهج أوبن أيه آي قد أدّى إلى تسريع وتيرة تطور الذكاء الاصطناعي، لكنه أثار تساؤلات حول احترام حقوق الملكية الفكرية والممارسات المسؤولة لجمع البيانات. ومع استمرار تطور الذكاء الاصطناعي، سيكون وضع مبادئ توجيهية واضحة حول استخدام البيانات أمراً بالغ الأهمية لضمان استمرار الابتكار ضمن إطار أخلاقي وقانوني.