كيف تحصل شركات الذكاء الاصطناعي التوليدي على بياناتك؟ وكيف تحميها؟

كيف تحصل شركات الذكاء الاصطناعي التوليدي على بياناتك؟ وهل يمكنك حماية بياناتك منها؟

حقوق الصورة: shutterstock.com/Tada Images

استمع الى المقالة الآن هذه الخدمة تجريبية

كشفت إدارة الرئيس الأميركي جو بايدن في منتصف العام الماضي عن التزام شركات التكنولوجيا طواعية بتطوير منتجات ذكاء اصطناعي توليدي آمنة وجديرة بالثقة، كإجرائها اختبارات أمنية مكثّفة وتبادل المعلومات حول إدارة المخاطر المحتملة والتخفيف منها، واستخدام أنظمتها لمساعدة المجتمع والطب في مجالات مثل البحث عن علاج للسرطان أو التخفيف من تغيّر المناخ.

ولكن من ضمن قائمة الالتزامات الكاملة للمسودة لُوحظ أمر مهم لم يتُطرق إليه، وهو عدم التزام الشركات الأميركية التي ضمت (جوجل، ومايكروسوفت، وأوبن أيه آي، وأمازون، وإنفليكشن، وميتا، وأنثروبيك) بالكشف عن كيفية جمعها البيانات اللازمة لتدريب نماذجها.

هذا يعني أن الشركات التي التزمت وفقاً للمسودة، التي لا تتضمن أي قيود حكومية للمراقبة أو الامتثال القانونيين، يمكنها ببساطة الاستمرار في جمع البيانات، ومن ضمنها بياناتك الشخصية، لتدريب نماذجها اللغوية الكبيرة دون الخشية من أي عواقب مترتبة على ذلك، فكيف يمكنك حماية بياناتك منها؟ وكيف تحصل هذه الشركات على تلك البيانات من الأساس؟

شركات الذكاء الاصطناعي متعطشة للبيانات أكثر من أي وقت مضى

هناك العديد من المخاوف بشأن الضرر المحتمل الذي تسببه أنظمة الذكاء الاصطناعي التوليدي المتطورة للمستخدمين، وما تفعله ببياناتنا هي واحدة من هذه المخاوف. في حقيقة الأمر نعرف القليل جداً عن المكان الذي تحصل منه الشركات على البيانات اللازمة لتدريب نماذجها، وكيف تُستخدم، وما الإجراءات التي تتخذها لحمايتها من خطر الهجمات السيبرانية وانتهاكات البيانات.

وهذا يعود إلى أن أنظمة الذكاء الاصطناعي التوليدي تحتاج إلى أكبر قدر ممكن من البيانات للتدريب عليها، فكلما حصلت على المزيد كان النموذج أكثر دقة في توليد الإجابات. وتُعدّ البيانات المتوفرة على شبكة الإنترنت المفتوحة مورداً هائلاً يسهل الحصول عليها من خلال أدوات جمع البيانات، لكن عملية الالتهام هذه لا تُميّز بين الأعمال المحمية بحقوق الطبع والنشر أو البيانات الشخصية، ببساطة أينما وُجِدت البيانات بالإمكان أخذها.

وما لا يساعد على توضيح كيفية جمع البيانات هو حذر شركات الذكاء الاصطناعي المبالغ فيه في عدم الكشف عن مصادر البيانات التي تجمعها، حيث إن حجتها الدائمة هي أنها متاحة للجمهور. على سبيل المثال، عندما أصدرت ميتا الإصدار الأول من نموذجها اللغوي لاما (LaMA) كانت صريحة وشفافة حول بيانات التدريب الخاصة بالنموذج، حيث تضمنت مجموعة من الكتب ومجموعة بيانات منظمة كومون كراول (Common Crawl) غير الربحية، التي شكّلت أكثر من ثلثي المعلومات التي استخدمتها ميتا لتدريب النموذج.

ولكن مع الإصدار الثاني تغير النهج، إذ لم تكشف الشركة سوى القليل عن بيانات التدريب التي اُستخدمت لتدريب النموذج والتي قد تحتوي على معلومات شخصية، بالإضافة إلى ذلك لدى شركة جوجل وميتا كنوز هائلة من البيانات الشخصية التي تستخدمها لتدريب نماذجها، خاصة إذا كان ذلك يعني اكتساب ميزة تنافسية.

على سبيل المثال، اتهمت تغريدة حديثة في منصة إكس أُعيد تغريدها آلاف المرات شركة جوجل بكشط محرر مستندات جوجل للحصول على البيانات اللازمة لتدريب أدوات الذكاء الاصطناعي الخاصة بها، حيث ادعت كاتبة التغريدة أن جوجل استخدمت خدمة المستندات ورسائل البريد الإلكتروني لتدريب الذكاء الاصطناعي منذ سنوات مضت، كما ذكرت شركة أوبن أيه آي مؤخراً بأنها تستخدم البيانات الشخصية والمحمية فقط لتدريب نماذجها اللغوية لجعلها أفضل، لكنها تقول إنها غير ملزمة بحذفها إذا كان لديها سبب قانوني.

كيف تجمع شركات الذكاء الاصطناعي البيانات من أجل تدريب نماذجها؟

لبناء نموذج ذكاء اصطناعي توليدي قوي تلجأ شركات الذكاء الاصطناعي إلى تنويع مصادر حصولها على البيانات والتي تشمل:

استخدام برامج عناكب الويب

تُعدّ من الطرق الأكثر شيوعاً عندما يتعلق الأمر بتدريب نماذج الذكاء الاصطناعي التوليدي، حيث تضبط الشركات نماذجها للتركيز على موضوع معين أو نوع معين من المعلومات، ثم استخدام برامج عناكب الويب (Web Crawlers) في البحث في الإنترنت والعثور على المعلومات التي تحتاج إليها.

ولكن هذه الطريقة تأتي مع العديد من المخاطر، على سبيل المثال إذا لم تُضبط معلمات البرنامج بشكلٍ دقيق قد تبدأ بالحصول على بيانات غير دقيقة أو منخفضة الجودة، والتي يمكن أن تؤثّر بشكلٍ سيئ على كيفية عمل نموذج الذكاء الاصطناعي بأكمله.

مجموعات البيانات العامة

وهو المحتوى المجاني الموجود في شبكة الإنترنت الذي يمكن لأي شخص الوصول إليه واستخدامه لأي غرض، وتتوفر في العديد من المصادر مثل موسوعة ويكيبيديا والكتب والمجلات العلمية ومكتبات الصور والمقالات والأخبار التي يمكن الوصول إليها مجاناً.

مستودعات البيانات

وهي منظمات غير ربحية أخذت على عاتقها جمع البيانات بطرقها الخاصة وتنظيمها في مستودعات وتوفيرها مجاناً أو وفق شروط معينة لتدريب نماذج الذكاء الاصطناعي، مثل الشبكة المفتوحة للذكاء الاصطناعي واسعة النطاق (LAION). وغالباً ما تلجأ شركات الذكاء الاصطناعي إلى هذه المنظمات للحصول على بيانات متنوعة وعالية الجودة من مصادرها المباشرة، لبناء نماذج أكثر دقة وموثوقية.

توليد البيانات التركيبية

وتُعرف أيضاً باسم البيانات الصناعية (Synthetic Data)، وتُعدّ من أحدث الطرق المستخدمة وأكثرها تعقيداً إذ تتطلب موارد مالية كبيرة، وهو يعني ببساطة استخدام نموذج ذكاء اصطناعي توليدي واحد لإنشاء بيانات تركيبية ثم تُستخدم البيانات الناتجة لتدريب نموذج ذكاء اصطناعي توليدي آخر.

على سبيل المثال، لتطوير نموذج ذكاء اصطناعي يعمل في قطاع خدمة العملاء، يمكن استخدام نموذج ذكاء اصطناعي توليدي آخر لإنشاء مواقف وتفاعلات خيالية للعملاء ثم استخدام البيانات التي أُنشئت لتدريب النموذج الأصلي، وقد بدأت هذه الطريقة تكتسب شعبية لأنها توفّر بيانات عالية الجودة ومتنوعة دون القلق من المخاوف المتعلقة بالخصوصية.

علاوة على ذلك يمكن للشركات ذات الموارد الضخمة استخدام بيانات عملاء منتجاتها لتدريب نماذجها اللغوية الكبيرة، كما تستخدم بعض الشركات بياناتها الداخلية لتدريب نماذج أكثر تخصصاً. على سبيل المثال، تُدرب خدمة بث الموسيقى سبوتيفاي نماذجها على بياناتها الداخلية للمساعدة على إنشاء قوائم التشغيل تلقائياً والتوصية بالمحتوى.

كما يمكن الحصول على البيانات من مواقع المحتوى الذي يُنشئه المستخدمون مباشرةً أو بشكل مدفوع. على سبيل المثال، بدأت منصة ريديت فرض رسوم على الراغبين من شركات الذكاء الاصطناعي للوصول إلى المحتوى الخاص بها، في محاولة لتوليد تدفق إيرادات جديد من خلال بيع بياناتها لأغراض تدريب أنظمة الذكاء الاصطناعي.

كيفية حماية بياناتك من استخدامها بواسطة شركات الذكاء الاصطناعي لتدريب نماذجها

يوجد حالياً عدد قليل جداً من الخيارات للحفاظ على البيانات الشخصية بعيداً عن شركات الذكاء الاصطناعي، وهذا يعود بشكلٍ كبير إلى عدم جدية شركات التكنولوجيا الكبرى في تطوير أدوات فعّالة للحفاظ على بيانات مستخدمي منتجاتها من عناكب الويب وأساليب جمع البيانات الأخرى، لأنها في الأساس هي من تستغل هذه البيانات لتدريب نماذجها اللغوية الكبيرة دون الحاجة إلى القلق من الدفع مقابلها أو مساءلتها من الجهات التنظيمية.

علاوة على ذلك، تفتقر معظم قوانين الخصوصية وحماية البيانات الموجودة حالياً إلى بنود قوية وواضحة تحمي من استغلال شركات الذكاء الاصطناعي لبيانات المستخدمين الشخصية، لأن معظمها أُقر قبل حدوث طفرة الذكاء الاصطناعي الحالية التي ما زالت تُسير بشكلٍ أسرع يجعل الحكومات والجهات التنظيمية تُكافح لوضع قوانين وتشريعات فعّالة للحفاظ على بيانات المستخدمين.

على سبيل المثال، تمنح قوانين الخصوصية الرقمية التي تُطبق في بعض الولايات الأميركية ودول الاتحاد الأوروبي المستهلكين الحق في مطالبة الشركات بحذف بياناتهم الشخصية، ومع ذلك ترفض شركات الذكاء الاصطناعي حتى الآن الامتثال لمثل هذه الطلبات من خلال الادعاء بأن مصدر البيانات لا يمكن إثباته أو حتى قد تتجاهل الطلبات تماماً.

وحتى لو احترمت الشركات مثل هذه الطلبات وأزالت بياناتك الشخصية من مجموعة تدريب نماذجها، لا توجد استراتيجية واضحة لإلغاء ما استوعبته سابقاً، حيث إن سحب المعلومات المحمية بحقوق الطبع والنشر جميعها أو التي يحتمل أن تكون حساسة من بيانات تدريب نماذج الذكاء الاصطناعي يمكن أن تُكلفها عشرات الملايين من الدولارات.

لذلك تدافع الشركات بشدة عن الحق في استخدام أنواع البيانات جميعها لتدريب نماذجها، سواء المجانية أو حتى المحمية بحقوق الطبع والنشر، والمندرجة ضمن قوانين الملكية الفكرية، ودفاعها الأول هو المنافسة باعتبارها مصدرَ قلقٍ رئيسياً تجعل من استخدام هذا النوع من المحتوى ضرورة لتوفير أفضل نماذج الذكاء الاصطناعي التوليدي الموثوقة التي يمكن الاعتماد عليها.

تقع معظم الجهود الحالية في خانة المبادرات الفردية التي قد تنجح مع بعض النماذج وتفشل مع أخرى. على سبيل المثال، تعمل أداة غليز (Glaze) التي طوّرها باحثون في جامعة شيكاغو الأميركية على جعل الصور غير قابلة للقراءة بشكلٍ فعّال لنماذج الذكاء الاصطناعي، ومع ذلك فإن استخداماتها محدودة؛ حيث تعمل فقط على حماية الصور الجديدة التي لم تُنشر مسبقاً على الإنترنت، أمّا بالنسبة للنصوص فلا توجد أداة مماثلة حتى الآن.