ماذا جاء في الورقة البحثية التي أدت لطرد تيمنيت جيبرو من جوجل؟

مساء الأربعاء 2 ديسمبر، أعلنت تيمنيت جيبرو، أحد قادة فريق جوجل لأخلاقيات الذكاء الاصطناعي، عبر تويتر أن الشركة أجبرتها على الاستقالة.

تحظى جيبرو بتقدير منقطع النظير بصفتها أحد رواد الأبحاث في مجال أخلاقيات الذكاء الاصطناعي. وقد اشتهرت بعد مشاركتها في تأليف ورقة بحثية رائدة أثبتت فيها أن تقنية التعرف على الوجوه أقل دقة في التعرف على النساء والأشخاص من ذوي البشرة الملونة، ما يعني أن استخدامها قد يؤدي إلى التمييز ضدهم. كما شاركت في تأسيس مجموعة: ذوي البشرة السمراء في مجال الذكاء الاصطناعي (Black in AI)، كما تعد أحد أبرز الداعين إلى تحقيق التنوع في مجال التكنولوجيا. ويعد الفريق الذي ساعدت في تشكيله في جوجل واحداً من أكثر الفرق تنوعاً في مجال الذكاء الاصطناعي، ويضم العديد من الخبراء الرائدين بجدارتهم واستحقاقهم. وكان هذا الفريق موضع حسد الأقران في هذا المجال بسبب إنتاجه لأبحاث هامة غالباً ما تعارضت مع الممارسات السائدة في الذكاء الاصطناعي.

أظهرت سلسلة من التغريدات ورسائل البريد الإلكتروني المسربة والمقالات الصحفية أن مغادرة جيبرو لشركة جوجل كانت حصيلة نزاع حول ورقة بحثية أخرى شاركت في تأليفها. وقد أخبر جيف دين، رئيس قسم الذكاء الاصطناعي في جوجل، زملاءه في رسالة بريد إلكتروني داخلية (نشرها على الإنترنت في وقت لاحق) إن الورقة البحثية "لم تتوافق مع معاييرنا الخاصة بالنشر"، وإن جيبرو كانت قد قالت إنها ستستقيل ما لم يتم تحقيق مجموعة من الشروط من جانب جوجل التي لم تكن مستعدة لتلبيتها. وفي تغريدة على تويتر، قالت جيبرو إنها طلبت التفاوض على "موعد أخير" لوظيفتها بعد عودتها من الإجازة. لكن قبل عودتها، تم إيقاف وصولها إلى حساب البريد الإلكتروني الخاص بالشركة.

يقول العديد من الرواد الآخرين في مجال أخلاقيات الذكاء الاصطناعي على مواقع الإنترنت إن الشركة طردتها بسبب الحقائق المزعجة التي كانت تكشف النقاب عنها والمتعلقة بأحد المحاور الرئيسية لأبحاثها، بل ربما تمثل خلاصة هذه الأبحاث. كما وقَّع أكثر من 1.400 من موظفي جوجل و1.900 من المؤيدين الآخرين على خطاب احتجاج على طرد جيبرو.

لا تزال العديد من تفاصيل التسلسل الدقيق للأحداث التي أدت إلى رحيل جيبرو عن جوجل غير واضحة بعد؛ حيث رفضت هي وجوجل التعليق وإضافة أي معلومات إلى منشوراتهما على مواقع التواصل الاجتماعي. غير أن إم آي تي تكنولوجي ريفيو تمكنت من الحصول على نسخة من الورقة البحثية من إحدى مؤلفيها، إميلي إم بيندر، أستاذة اللسانيات الحاسوبية في جامعة واشنطن. ومع أن بيندر طلبت منا عدم نشر الورقة كما هي لأن المؤلفين لم يرغبوا في انتشار مثل هذه المسودة المبكرة ومشاركتها عبر الإنترنت، إلا أنها توفر بعض المعلومات حول الأسئلة التي طرحتها جيبرو وزملاؤها حول الذكاء الاصطناعي، والتي ربما تكون قد أدت إلى إثارة مخاوف جوجل.

تحمل الورقة البحثية عنوان:"حول مخاطر الببغاوات العشوائية: هل يمكن أن تكون النماذج اللغوية ضخمة جداً؟"، وتوضِّح مخاطر النماذج اللغوية الضخمة، وهي أنظمة الذكاء الاصطناعي المدربة على كميات هائلة من البيانات النصية. وقد اكتسبت هذه النماذج شعبية متزايدة -وأحجاماً متزايدة- في السنوات الثلاثة الماضية. وعند توافر الشروط المناسبة، تظهر هذه النماذج أداءً مذهلاً في إنتاج ما يبدو وكأنه نص جديد مُقنِع وذو معنى، وتتميز أحياناً في تخمين المعنى من اللغة. لكن، كما جاء في مقدمة الورقة البحثية: "نطرح التساؤل عما إذا كان قد تم التفكير بشكل كافٍ في المخاطر المحتملة المرتبطة بتطويرها وإستراتيجيات التخفيف من هذه المخاطر".

الورقة البحثية

تقدم الورقة -التي تبني محتواها على أعمال باحثين آخرين- تاريخَ معالجة اللغات الطبيعية ولمحة عامة عن أربعة مخاطر رئيسية ناجمة عن النماذج اللغوية الضخمة واقتراحات لإجراء المزيد من الأبحاث. وبما أن النزاع مع جوجل يبدو أنه يتمحور حول المخاطر، فقد ركزنا جهودنا على تلخيصها هنا.

التكاليف البيئية والمالية

ينطوي تدريب نماذج الذكاء الاصطناعي الضخمة على استهلاك الكثير من قدرة المعالجة الحاسوبية، وبالتالي الكثير من الكهرباء. وتشير جيبرو والمؤلفون الآخرون إلى ورقة بحثية نشرتها إيما ستروبيل والمتعاونون معها عام 2019 حول انبعاثات الكربون والتكاليف المالية للنماذج اللغوية الضخمة. ووجدت أن استهلاكها للطاقة والبصمة الكربونية الناجمة عنها آخذان في الازدياد بمعدل كبير منذ عام 2017، عندما بدأ تزويد النماذج بالمزيد والمزيد من البيانات.

وجدت دراسة ستروبيل أن نموذجاً لغوياً واحداً مع نوع معين من طريقة "بحث الهيكلية العصبونية" (NAS) كان من الممكن أن ينتج ما يعادل 626.155 رطلاً (284 طناً مترياً) من ثاني أكسيد الكربون، أي ما يعادل إنتاج خمس سيارات أميركية متوسطة. وقد أدى أحد إصدارات نموذج جوجل اللغوي المسمى بيرت (BERT)، والذي يعتمد عليه محرك بحث الشركة، إلى إنتاج 1.438 رطلاً (652 كيلوجراماً) من ثاني أكسيد الكربون المكافئ وفقاً لتقييم ستروبيل، أي ما يعادل تقريباً نفس ما تطلقه رحلة الذهاب والإياب بين مدينتي نيويورك وسان فرانسيسكو.

تشير مسودة ورقة جيبرو إلى أن الموارد الهائلة المطلوبة لبناء هذا النوع من نماذج الذكاء الاصطناعي الضخمة واستدامتها تعني أنه من المرجح أن تحمل هذه النماذج فوائدها إلى الشركات الغنية، بينما يؤثر تغير المناخ على المجتمعات المهمشة بشكل أكبر. وجاء في المقالة: "لقد تأخر الباحثون في إعطاء الأولوية لكفاءة الطاقة والتكلفة لتقليل الأثر السلبي على البيئة والوصول غير العادل إلى الموارد".

بيانات ضخمة ونماذج مُبهمة

علاوة على ما سبق، يتم تدريب النماذج اللغوية الضخمة على كميات سريعة التزايد من النصوص. هذا يعني أن الباحثين عملوا على جمع كل البيانات التي يمكنهم الحصول عليها من الإنترنت، لذلك هناك خطر يتمثل في إمكانية وصول الخطابات العنصرية والمسيئة والمتحيزة على أساس الجنس إلى بيانات التدريب.

من الواضح أن نموذج الذكاء الاصطناعي الذي يتم تدريبه بحيث ينظر إلى الخطاب العنصري على أنه طبيعي هو نموذج سيئ. ومع ذلك، يشير الباحثون إلى مشكلتين أقلّ تجلياً؛ الأولى هي أن التغيرات في الخطاب تلعب دوراً هاماً في التغيير الاجتماعي، وعلى سبيل المثال، فإن الحركتين مي تو (MeToo) وحياة السود مهمة (Black Lives Matter) قد حاولا إنشاءَ مفردات جديدة مناهضة للتمييز بين الجنسين ومناهضة للعنصرية. إن نموذج الذكاء الاصطناعي الذي يتم تدريبه على مقاطع نصية كثيرة مستقاة من الإنترنت لن يتفهّم الفروق الدقيقة في هذه المفردات ولن ينتج أو يفسر اللغة بما يتماشى مع هذه المعايير الثقافية الجديدة.

كما أنه سيفشل في استيعاب لغة ومعايير البلدان والشعوب التي تمتلك وصولاً أقل إلى الإنترنت، وبالتالي تمتلك بصمة لغوية أصغر على الإنترنت. وفي المحصلة، ستكون اللغة التي يولدها الذكاء الاصطناعي متجانسة بصورة تعكس ممارسات الدول والمجتمعات الأكثر ثراءً.

علاوة على ذلك، نظراً للحجم الهائل لبيانات التدريب، فمن الصعب تدقيقها للتحقق من وجود هذه التحيزات المضمَّنة فيها. وخلُص الباحثون إلى أن "المنهجية التي تعتمد على مجموعات بيانات كبيرة جداً بحيث لا يمكن توثيقها هي منهجية خطيرة بطبيعتها. وفي حين أن التوثيق يتيح إمكانية المساءلة، [...] فإن بيانات التدريب غير الموثقة تؤدي إلى تفاقم الأذى دون إمكانية إعادة التدقيق".

تكاليف الفرصة البديلة في الأبحاث

يلخِّص الباحثون التحدي الثالث على أنه خطر "الجهود البحثية سيئة التوجيه". على الرغم من أن معظم الباحثين في مجال الذكاء الاصطناعي يقرون بأن النماذج اللغوية الضخمة لا تفهم اللغة فعلياً وأنها بالكاد تقدم أداءً ممتازاً في التلاعب بها، فإنه يمكن للشركات التقنية العملاقة أن تجني الأموال من النماذج التي تستطيع التلاعب باللغة بشكل أكثر دقة، ولهذا السبب فإنها تواصل الاستثمار فيها. كتبت جيبرو وزملاؤها: "يجلب هذا الجهد البحثي معه تكلفة الفرصة البديلة". لا يتم بذل القدر نفسه من الجهود البحثية على تطوير نماذج الذكاء الاصطناعي التي قد تنجح في فهم اللغة أو تحقيق نتائج جيدة بالاعتماد على مجموعات أصغر من البيانات التي يتم تنسيقها بعناية (وبالتالي تستهلك طاقة أقل أيضاً).

أوهام المعنى

يقول الباحثون إن المشكلة الأخيرة في النماذج اللغوية الضخمة تنبع من قدرتها الكبيرة على تقليد لغة بشرية حقيقية، التي تجعل من السهل استخدامها لخداع الناس. كان هناك عدد قليل من الحالات البارزة لسوء الاستخدام هذا، مثل الطالب الجامعي الذي نشر نصائح مولّدة بالذكاء الاصطناعي حول رفع الإنتاجية والتطوير الذاتي على مدونة انتشرت كالنار في الهشيم عبر الإنترنت.

المخاطر واضحة وضوح الشمس: يمكن على سبيل المثال استخدام نماذج الذكاء الاصطناعي لتوليد معلومات خاطئة حول الانتخابات أو وباء كوفيد-19. كما يمكن أن تعطي نتائج سيئة عن غير قصد عند استخدامها في الترجمة الآلية. وقد طرح الباحثون مثالاً على ذلك؛ في عام 2017، أخطأ موقع فيسبوك في ترجمة منشور لشخص فلسطيني جاء فيه: "صباح الخير" باللغة العربية، وترجمه الموقع على أنه "هاجِمهم" باللغة العبرية، ما أدى إلى اعتقال صاحب المنشور.

ما سبب أهمية الأمر؟

شارك ستة باحثين في تأليف ورقة جيبرو وبيندر، أربعة منهم باحثون في جوجل. طلبت بيندر عدم الكشف عن أسمائهم خوفاً من التداعيات. (أما بيندر فهي أستاذة مثبتة، وتقول: "أعتقد أن ما حدث يبرز قيمة الحرية الأكاديمية").

تقول بيندر إن هدف الورقة البحثية كان تقييم مشهد البحث الحالي في معالجة اللغات الطبيعية. وتضيف: "نحن نعمل على نطاق لا يستطيع فيه الأشخاص الذين يبنون النماذج أن يكونوا على إحاطة كافية بالبيانات. ولأن الجوانب الإيجابية واضحة جداً، فمن المهم بشكل خاص أن نتراجع خطوة إلى الوراء ونسأل أنفسنا: ما الجوانب السلبية المحتملة؟ ... كيف يمكننا الحصول على فوائد هذه التكنولوجيا وفي نفس الوقت تخفيف المخاطر المرافقة؟".

وقد قال دين، رئيس قسم الذكاء الاصطناعي في جوجل، في بريده الإلكتروني الداخلي إن أحد أسباب "عدم توافق الورقة البحثية مع معاييرنا الخاصة بالنشر" هو أنها "تجاهلت الكثير من الأبحاث ذات الصلة". وأضاف أنها على وجه التحديد لم تذكر الأبحاث الأخيرة حول كيفية جعل النماذج اللغوية الضخمة أكثر كفاءة من حيث استهلاك الطاقة وتخفيف مشاكل التحيز.

ومع ذلك، استند المؤلفون الستة إلى مجموعة واسعة من الدراسات الأكاديمية؛ حيث إن قائمة مراجع الورقة، التي تحتوي على 128 مرجعاً، طويلة بشكل ملحوظ. وقالت بيندر: "لا يمكن لباحث واحد أو اثنين فقط أن ينجزا هذا النوع من الأبحاث، بل كان لا بدّ من هذا التعاون لإتمامه".

كما تشير نسخة الورقة البحثية التي اطلعنا عليها إلى العديد من الجهود البحثية المتعلقة بتخفيض حجم النماذج اللغوية الضخمة وتقليل تكاليفها الحاسوبية، وقياس التحيز المضمن في النماذج. لكنها تنصّ في المقابل على أن هذه الجهود لم تكن كافية حتى الآن. وأضافت بيندر: "أنا منفتحة جداً على رؤية المراجع الأخرى التي ينبغي علينا إدراجها في الورقة".

ورأى نيكولاس لو رو، الباحث في قسم الذكاء الاصطناعي في جوجل في مكتب مونتريال، لاحقاً على تويتر أن المنطق في البريد الإلكتروني الذي أرسله رئيس القسم، دين، لم يكن مألوفاً، وأضاف: "لطالما تم فحص الدراسات التي أقدّمها للتأكد من عدم كشفها لمواد سرية، ولكن لم يتم فحصها أبداً من حيث جودة مراجعتها للدراسات السابقة ذات الصلة".

Now might be a good time to remind everyone that the easiest way to discriminate is to make stringent rules, then to decide when and for whom to enforce them.
My submissions were always checked for disclosure of sensitive material, never for the quality of the literature review.

— Nicolas Le Roux (@le_roux_nicolas) December 3, 2020

تشير رسالة دين الإلكترونية أيضاً إلى أن جيبرو وزملاءها أعطوا قسم الذكاء الاصطناعي في جوجل مهلة يوم واحد فقط لإجراء مراجعة داخلية للورقة قبل تقديمها إلى مؤتمر لنشرها. وجاء في رسالته الإلكترونية:"هدفنا هو منافسة المجلات العلمية التي يراجعها الأقران من حيث الدقة وعمق التفكير في كيفية مراجعة الأبحاث قبل نشرها".

I understand the concern over Timnit’s resignation from Google. She’s done a great deal to move the field forward with her research. I wanted to share the email I sent to Google Research and some thoughts on our research process.https://t.co/djUGdYwNMb

— Jeff Dean (@🏡) (@JeffDean) December 4, 2020

أشارت بيندر إلى أنه بالرغم من ذلك، فإن المؤتمر كان سيُخضع الورقة لعملية مراجعة شاملة وعميقة، حيث قالت: "إن الدراسات العلمية هي دائماً عبارة عن نقاشات وعمل قيد الإنجاز".

بينما أثار آخرون، بمن فيهم ويليام فيتزجيرالد، مدير العلاقات العامة السابق في جوجل، مزيداً من الشكوك حول ادعاء دين.

كانت جوجل رائدة في الكثير من الأبحاث التأسيسية التي أدت منذ ذلك الحين إلى الانفجار الأخير في النماذج اللغوية الضخمة. حيث كان قسم الذكاء الاصطناعي في جوجل أول من ابتكر نموذج التحويل اللغوي (Transformer) في عام 2017، الذي شكّل أساساً لنموذج الشركة اللاحق بيرت، ونموذجي جي بي تي-2 وجي بي تي-3 من أوبن إيه آي. وكما ذكرنا أعلاه، فإن نموذج بيرت يشغِّل الآن محرك بحث جوجل، البقرة الحلوب في الشركة التي تدرّ عليها الأموال.

تتخوف بيندر من أن إجراءات جوجل قد تخلق "تأثيراً سلبياً" على الأبحاث المستقبلية في أخلاقيات الذكاء الاصطناعي؛ حيث يعمل العديد من كبار الخبراء في أخلاقيات الذكاء الاصطناعي في شركات التكنولوجيا العملاقة لأنها توفر الأموال اللازمة لتمويل أبحاثهم. وتختم بيندر بالقول: "لقد كان ذلك مفيداً من نواحٍ عديدة، لكن ينتهي بنا المطاف إلى نظام بيئي ربما لا يتمتع بالدوافع المثلى لتحقيق التقدم العلمي بما يخدم مصلحة العالَم".