كيف يتحيز الذكاء الاصطناعي ولماذا يصعب إصلاحه؟

على مدى الأشهر القليلة الماضية، قدمنا مقالات مدعومة بالوثائق توضح كيفية استناد الغالبية العظمى من تطبيقات الذكاء الاصطناعي اليوم إلى فئة الخوارزميات المعروفة بالتعلم العميق، وكيف يمكن لخوارزميات التعلم العميق العثور على الأنماط في البيانات. كما أننا غطينا أيضاً كيفية تأثير هذه التكنولوجيات على حياة الناس: كيف يمكنهم تكريس الظلم في التوظيف، وتجارة التجزئة، والمجالات الأمنية وربما بدأوا يفعلون ذلك في النظام القانوني الجنائي (في الولايات المتحدة).

إلا أنه ليس كافياً أن يقتصر الأمر على معرفتنا بوجود التحيز. فإذا أردنا أن نكون قادرين على إصلاحه، فنحن بحاجة إلى فهم الآليات التي توضح كيفية ظهوره في المقام الأول.

كيف يحدث تحيز الذكاء الاصطناعي

غالباً ما نختزل تفسيرنا لتحيز الذكاء الاصطناعي من خلال إلقاء اللوم على بيانات التدريب المتحيزة. لكن الواقع أكثر دقة: يمكن للتحيز أن يتسلل قبل فترة طويلة من جمع البيانات، وكذلك في العديد من المراحل الأخرى من عملية التعلم العميق. لخدمة الأغراض التي أعدت لأجهلها هذه المناقشة، سوف نركز على 3 مراحل رئيسية.

تأطير المشكلة

أول أمر يقوم به علماء الحاسوب عندما يقومون بإنشاء نموذج للتعلم العميق، هو أن يقرروا ما الذي يريدون تحقيقه فعلاً. فقد ترغب إحدى شركات بطاقات الائتمان – على سبيل المثال – في التنبؤ بالجدارة الائتمانية لأحد العملاء، ولكن "الجدارة الائتمانية" مفهوم غامض إلى حد ما.

بغية ترجمتها إلى شيء يمكن حسابه، يتعين على الشركة أن تقرر ما إذا كانت تريد – على سبيل المثال – زيادة هامش ربحها إلى أقصى حد ممكن، أو زيادة عدد القروض التي يتم سدادها إلى أقصى حد ممكن.

يمكنها عندئذ أن تعرّف الجدارة الائتمانية في سياق هذا الهدف. يشرح سولو باروكاس الأستاذ المساعد في جامعة كورنيل المتخصص في "الإنصاف في التعلم الآلي" قائلاً: تكمن المشكلة في أن "هذه القرارات يتم اتخاذها لأسباب تجارية مختلفة عن الإنصاف أو حُسن التمييز".

إذا اكتشفت الخوارزمية أن منح القروض بضمانات عقارية كان وسيلة فعالة لتحقيق أقصى قدر ممكن من الأرباح، فسينتهي بها الأمر بالدخول في سلوك افتراسي حتى لو لم يكن ذلك هو نية الشركة.

جمع البيانات

هناك طريقتان أساسيتان يظهر التحيز من خلالهما في بيانات التدريب: إما أن البيانات التي تجمعها لا تمثل الواقع، أو أنها تعكس أوجه التحيز الموجودة. قد تحدث الحالة الأولى – على سبيل المثال – إذا تم تغذية خوارزمية التعلم العميق بصور الوجوه ذات البشرة الفاتحة أكثر مما يتم تغذيتها بصور الوجوه ذات البشرة الداكنة.

من المؤكد أن نظام التعرف على الوجوه الناتج سيكون أسوأ حالاً في التعرف على الوجوه ذات البشرة الداكنة. والحالة الثانية تمثل ما حدث بالضبط عندما اكتشفت أمازون أن أداة التوظيف الداخلي لديها كانت تتجاهل المرشحين من الإناث. فنظراً لأنه تم تدريبها على سجل سابق من القرارات المتخذة، والتي تم فيها تفضيل الرجال على النساء، فقد تعلمت الأداة أن تفعل الشيء نفسه.

إعداد البيانات

أخيراً، يمكن إدخال التحيز خلال مرحلة إعداد البيانات، والتي تتضمن تحديد السمات التي تريد للخوارزمية أن تضعها في الاعتبار. (لا ينبغي الخلط بين هذه المرحلة ومرحلة تأطير المشكلة. يمكنك استخدام نفس السمات لتدريب أحد النماذج لتحقيق أهداف مختلفة تماماً، أو استخدام سمات مختلفة تماماً لتدريب أحد النماذج لتحقيق نفس الهدف).

في حالة نمذجة الجدارة الائتمانية، قد تكون "السمة" هي عمر العميل، أو عدد القروض التي تم سدادها. في حالة أداة أمازون للتوظيف، قد تكون "السمة" هي جنس المرشح، أو مستواه التعليمي، أو عدد سنوات الخبرة.

هذا ما يسمونه الناس في كثير من الأحيان "فن" التعلم العميق: إن اختيار السمات التي ينبغي مراعاتها أو تجاهلها يمكن أن يؤثر بشكل كبير على الدقة التي يحققها نموذجك في التنبؤ. ولكن على الرغم من سهولة قياس تأثير ذلك على الدقة، فإن قياس تأثيره على تحيز النموذج ليس سهلاً على الإطلاق.

لماذا يصعب إصلاح تحيز الذكاء الاصطناعي؟

بالنظر إلى هذا السياق، قد تكون بعض التحديات المتعلقة بتخفيف التحيز قد أصبحت واضحة لك الآن. وهنا نلقي الضوء على أربعة تحديات رئيسية منها.

أوجه الغموض المجهولة

لا يكون إدخال التحيز واضحاً على الدوام أثناء بناء النموذج، نظراً لأنك قد لا تدرك التأثيرات النهائية لبياناتك وخياراتك إلا بعد فترة طويلة. وعندما تدرك ذلك، فمن الصعب أن تحدد بأثر رجعي المصدر الذي تسبب بظهور التحيز، وأن تعرف بعد ذلك كيف تتخلص منه.

في حالة أمازون، عندما اكتشف المهندسون بادئ الأمر أن أداة الشركة كانت تحظر المرشحين من الإناث، أعادوا برمجتها بحيث تتجاهل الكلمات الجنسانية الصريحة مثل "امرأة" أو "نساء". سرعان ما اكتشفوا أن النظام المعدّل ظل يركز على الكلمات الجنسانية الضمنية – كالأفعال التي ترتبط ارتباطاً وثيقاً بالرجال مقارنة بالنساء، مثل "نُفّذ executed" و "التُقط captured" – ويعتمد على ذلك في اتخاذ قرارته.

2. العمليات المنقوصة

أولاً، إن العديد من الممارسات المعيارية في التعلم العميق لا يتم تصميمها مع الأخذ في الحسبان اكتشاف التحيز. حيث يجري اختبار نماذج التعلم العميق لتقييم أدائها قبل وضعها قيد التطبيق، مما يخلق فرصة مثالية لكشف التحيز.

أما من الناحية العملية، فعادةً ما يجري الاختبار على النحو التالي: يقوم علماء الحاسوب بتقسيم بياناتهم بشكل عشوائي قبل التدريب إلى مجموعة أولى يتم استخدامها فعلياً للتدريب، ومجموعة أخرى يتم الاحتفاظ بها لأغراض التحقق فور انتهاء مرحلة التدريب. هذا يعني أن البيانات التي تستخدمها لاختبار أداء النموذج الخاص بك لديها أوجه التحيز نفسها التي تتضمنها البيانات التي استخدمتها في تدريب هذا النموذج. وبالتالي، سوف يفشل الاختبار في تمييز النتائج المنحرفة أو المتحيزة.

3. غياب السياق الاجتماعي

وبالمثل، فإن الطريقة التي يتم فيها تدريس علماء الحاسوب على تأطير المشاكل لا تتوافق في كثير من الأحيان مع أفضل طريقة للتفكير في المشاكل الاجتماعية. على سبيل المثال، يحدد آندرو سيلبست – وهو باحث في مرحلة ما بعد الدكتوراه في معهد أبحاث البيانات والمجتمعات – في ورقة علمية ما يسميه "فخ قابلية النقل".

في علم الحاسوب، من الأساليب الجيدة المتبعة عند تصميم نظام معين أن يكون صالحاً للاستخدام من أجل مهام مختلفة في سياقات مختلفة. يستدرك سيلبست قائلاً: "لكن ما يفعله هذا الأسلوب هو أنه يتجاهل الكثير من السياق الاجتماعي". يضيف سيلبست: "لا يمكنك تطبيق نظام تم تصميمه في يوتاه، ثم تقوم بتطبيقه في كنتاكي مباشرة، لأن ترجمة مفهوم الإنصاف تختلف باختلاف المجتمعات. كما أنه لا يمكنك الحصول على نظام تقوم بتطبيقه للحصول على نتائج ’’عادلة‘‘ في القضاء الجنائي، ثم تقوم بتطبيقه في مجال التوظيف. فطريقة تفكيرنا بشأن الإنصاف تختلف تماماً وفق هذين السياقين".

4. تعاريف الإنصاف (العدالة)

من غير الواضح أيضاً كيف ينبغي لغياب التحيز أن يكون. فالأمر لا ينطبق على علم الحاسوب وحسب، فهذا السؤال له تاريخ طويل من النقاش في مجالات الفلسفة، والعلوم الاجتماعية، والقانون.

الأمر المختلف في علم الحاسوب هو أن مفهوم الإنصاف يجب تعريفه بمصطلحات رياضية، مثل تحقيق التوازن بين معدلات النتائج الإيجابية الخاطئة والنتائج السلبية الخاطئة لأحد أنظمة التنبؤ. إلا أنه وفق ما اكتشفه الباحثون، هناك العديد من التعاريف الرياضية المختلفة للإنصاف التي تعارض بعضها البعض أيضاً.

هل يعني الإنصاف – على سبيل المثال – أنه ينبغي لنفس النسبة من الأفراد السود والبيض الحصول على درجات عالية من تقييم المخاطر؟ أو يعني أن نفس المستوى من المخاطر ينبغي أن يفضي إلى نفس النتائج بصرف النظر عن العرق؟ من المستحيل الإيفاء بكلا التعريفين في الوقت نفسه (إليك هنا نظرة أكثر تعمقاً على المسببات)، أي أنه في مرحلة معينة عليك اختيار تعريف واحد منها.

ولكن في حين أنه في مجالات أخرى يُفهم هذا القرار على أنه شيء يمكن له أن يتغير بمرور الوقت، إلا أن مجال علم الحاسوب لديه انطباع بضرورة إصلاحه. يقول سيلبست: "من خلال تحديد الإجابة، فأنت تجد حلاً لمشكلة تبدو مختلفة تماماً عن الأسلوب الذي يميل فيه المجتمع إلى التفكير في مثل هذه المسائل".

ما هي وجهتنا الآن؟

إذا كنت مشوشاً الآن بعد جولتنا السريعة التي غطت مشكلة التحيز عند الذكاء الاصطناعي بكافة أبعادها، فأنا كذلك أيضاً. ولكن لحسن الحظ، هناك فريق متمكن من باحثي الذكاء الاصطناعي الذين يعملون بجد لمعالجة هذه المشكلة.

وقد اتبعوا مجموعة متنوعة من الأساليب: الخوارزميات التي تساعد في الكشف عن التحيزات والتخفيف منها ضمن بيانات التدريب، أو التي تخفف من التحيزات التي تعلمتها النماذج بصرف النظر عن جودة البيانات؛ وعمليات يمكنها أن تحمل الشركات مسؤولية الحصول على نتائج أكثر إنصافاً، ونقاشات يمكنها الاتفاق على التعاريف المختلفة لمفهوم الإنصاف.

يقول سيلبست: "إن إصلاح التمييز في الأنظمة التي تعتمد في عملها على الخوارزميات يمثل مشكلة لا يمكن حلّها بسهولة". ويضيف أخيراً: "إنها عملية مستمرة، تماماً مثل التمييز الذي نجده في أي جانب آخر من الجوانب الاجتماعية".