كيف جعلنا الذكاء الاصطناعي نقدم بياناتنا مجاناً للشركات التكنولوجية الكبرى؟

هل أصبحنا موظفي بيانات بالمجان لدى الذكاء الاصطناعي؟

مصدر الصورة: آنا سوروكينا

استمع الى المقالة الآن هذه الخدمة تجريبية

يكمن السر في زيادة ذكاء بوتات الدردشة التي تعتمد على الذكاء الاصطناعي وتقليل إنتاجها للهراء والإساءات في استخدام طريقة تسمى التعلم المعزز من التقييمات البشرية، والتي تعتمد على المُدخلات البشرية لتحسين إجابات النموذج.

تعتمد هذه الطريقة على جيش صغير من مصنفي البيانات البشر الذين يقيّمون الكلمات والعبارات النصية من حيث منطقيتها وانسيابيتها وسياقها الطبيعي، ويتخذون بناء على هذا قراراً بالاحتفاظ بالإجابة في قاعدة البيانات التابعة لنموذج الذكاء الاصطناعي، أو حذفها.

الحاجة إلى العمل البشري مستمرة حتى مع نماذج الذكاء الاصطناعي

حتى بوتات الدردشة التي تعمل بالذكاء الاصطناعي الأكثر إثارة للإعجاب، تحتاج إلى الآلاف من ساعات العمل البشري كي يبلغ سلوكها المستوى المرغوب بالنسبة لمصمميها، وحتى وإن كانت كذلك، فإن سلوكها يبقى غير موثوق تماماً. يمكن لهذا العمل أن يكون مضنياً ومزعجاً للغاية، كما قيل مع انطلاقة مؤتمر جمعية آلات الحوسبة (ACM) حول العدالة والمسؤولية والشفافية “فاكت (FAccT) اختصاراً”. يتحدث هذا المؤتمر عن الكثير من الأشياء التي يروق لي الكتابة عنها، مثل كيفية زيادة مسؤولية أنظمة الذكاء الاصطناعي وأخلاقيتها.

وقد كنت أتطلع إلى جلسة حوارية مع الرائدة في أخلاقيات الذكاء الاصطناعي، تيمنيت غيبرو، التي اعتادت المشاركة في إدارة قسم أخلاقيات الذكاء الاصطناعي في جوجل قبل طردها من هناك. تحدثت غيبرو عن استغلال عاملي البيانات في إثيوبيا وأريتريا وكينيا لإزالة خطاب الكراهية والمعلومات المزيفة على الإنترنت. على سبيل المثال، كان مصنفو البيانات في كينيا يحصلون على أقل من دولارين في الساعة لتدقيق مقادير ضخمة من المحتوى المسيء حول العنف والاستغلال الجنسي، كي يصبح تشات جي بي تي (ChatGPT) أقل إساءة. وقد قرر هؤلاء العاملون تأسيس اتحاد خاص بهم لتحسين ظروف العمل.

في سلسلة نشرتها إم آي تي تكنولوجي ريفيو العام الماضي، تحدثنا عن أثر الذكاء الاصطناعي في بناء نظام عالمي استعماري جديد، وتَحمُّل عاملي البيانات العبء الأكبر في ظل هذا النظام. أصبح كشف ممارسات استغلال عمالة الذكاء الاصطناعي أكثر ضرورة وإلحاحاً مع ظهور بوتات الدردشة الذائعة الصيت، مثل تشات جي بي تي وبينغ (Bing) وبارد (Bard) وأنظمة الذكاء الاصطناعي لتوليد الصور، مثل دال-إي 2 (DALL-E 2) وستيبل ديفيوجن (Stable Diffusion).

هل مصنفو البيانات هم الحلقة الأضعف في مراحل تطوير الذكاء الاصطناعي؟

يسهم مصنفو البيانات في جميع مراحل تطوير الذكاء الاصطناعي، بدءاً من تدريب النماذج وصولاً إلى تقييم نتائجها وتقديم الملاحظات التي تتيح معايرة النموذج بدقة بعد إطلاقه. ويضطرون في أغلب الأحيان إلى العمل بوتيرة فائقة السرعة لتحقيق أهداف إنتاجية صعبة بمواعيد نهائية خانقة، وفقاً لباحثة الدكتوراة التي تدرس ممارسات العمل في مجال البيانات في جامعة سيتي في لندن، سرافيا تشانديرامولي.

تقول تشانديرامولي: “إن فكرة بناء هذه الأنظمة الضخمة دون تدخل بشري خاطئة تماماً”.

يزود مصنفو البيانات أنظمةَ الذكاء الاصطناعي بالسياق المهم الذي تحتاج إليه لاتخاذ القرارات التي توحي بأنها فائقة التعقيد، وبأعداد كبيرة.

أخبرتني تشانديرامولي بحالة توجّبَ فيها على أحد مصنفي البيانات في الهند التفريق بين صور لزجاجات الصودا، واختيار الزجاجات الشبيهة بمشروب دكتور بيبر. ولكن دكتور بيبر لم يكن أحد المنتجات التي تُباع في الهند، ولهذا تحمّل مصنّف البيانات مسؤولية تحديد ما يجب فعله.

تتوقع الشركات أن يتمكن المصنفون من تحديد القيم المهمة بالنسبة للشركة، وفقاً لتشانديرامولي. وتقول: “لا يقتصر عملهم على تعلّم هذه الأشياء البعيدة عنهم التي لا تحمل أي أهمية بالنسبة لهم على الإطلاق، بل يتعين عليهم تحديد سياقاتها المناسبة، وأولويات الأنظمة التي يشاركون في بنائها”.

جميعنا عمال بيانات للشركات الكبرى!

في الواقع، نحن جميعاً نؤدي دور عاملي البيانات للشركات التكنولوجية الكبرى، سواء أكنا مدركين لذلك أم لا، كما يقول باحثون في جامعة كاليفورنيا في بيركلي، وجامعة كاليفورنيا في ديفيس، وجامعة مينيسوتا، وجامعة نورث ويسترن، في ورقة بحثية جديدة عُرضت في مؤتمر فاكت.

فنماذج الذكاء الاصطناعي للنصوص والصور تخضع للتدريب باستخدام مجموعات بيانات ضخمة جُمِعت من الإنترنت. تتضمن هذه المجموعات بياناتنا الشخصية، وأعمالنا الفنية المحمية بموجب قوانين الملكية الفكرية، وهذه البيانات التي ولّدناها من قبل أصبحت الآن، وإلى الأبد، جزءاً من نموذج ذكاء اصطناعي مبني لتحقيق الأرباح لمصلحة إحدى الشركات. لقد قدمنا خلاصة عملنا دون انتباه منا إلى الشركات مجاناً، وذلك بتحميل صورنا على المواقع العامة، والتصويت على التعليقات في موقع ريديت (Reddit)، وتصنيف الصور على نظام التحقق ري كابتشا (نظام اختبارات مطور للتمييز بين الإنسان والحاسوب اعتماداً على اختبار تورينغ (reCAPTCHA))، وإجراء عمليات البحث على الإنترنت.

في الوقت الحالي، يميل ميزان النفوذ بشدة إلى مصلحة بعض الشركات التكنولوجية الأكبر على مستوى العالم.

ولتغيير هذا الأمر، نحتاج على الأقل إلى ثورة وتنظيم شاملين في مجال البيانات. يقول الباحثون إن إحدى وسائل استعادة الناس التحكم بوجودهم على الإنترنت تقوم على مناصرة الشفافية المتعلقة باستخدام البيانات، وابتكار وسائل تمنح الناس الحق في تقديم الملاحظات والتعليقات، وتقاسم العائدات الناتجة عن استخدام بياناتهم.

ومع أن عمالة البيانات تمثل أساس الذكاء الاصطناعي الحديث، إلا أن إسهامها ما زال حتى الآن خفياً ولا تحوز ما تستحقه من التقدير في أنحاء العالم كافة، وما زالت أجور المصنّفين منخفضة.

تقول تشانديرامولي: “لا يوجد أي اعتراف بإسهام العمل المتعلق بالبيانات على الإطلاق”.