كيف فقدنا التحكم في بيانات وجوهنا؟

في عام 1964، حاول عالم الرياضيات والحاسوب وودرو بليدسو، إجراء أول عملية مضاهاة لوجوه المشتبه بهم مع صور التوقيف البوليسي [أي الصور الفوتوغرافية التي تلتقطها الشرطة للمجرمين بعد القبض عليهم]، فقام بقياس المسافات بين ملامح الوجه المختلفة في الصور الفوتوغرافية المطبوعة، ثم أدخلها في أحد البرامج الحاسوبية. وقد دشنت نجاحاته الأولية أبحاثاً استمرت عقوداً لتعليم الآلات كيفية التعرف على وجوه البشر.

والآن، تُظهر دراسة جديدة إلى أي مدى تسبب هذا المشروع في تقويض خصوصيتنا؛ إذ إنه لم يساهم في ابتكار أداة مراقبة متزايدة القوة فحسب، بل إن أحدث أجيال أنظمة التعرف على الوجوه القائمة على تقنيات التعلم العميق قد أخلَّت تماماً بالقواعد الخاصة بمنح الموافقة.

فحصت كل من ديبورا راجي الباحثة في مؤسسة موزيلا غير الربحية، وجنيفيف فريد التي تقدم المشورة إلى أعضاء الكونجرس الأميركي بشأن عملية "المساءلة الخوارزمية"، أكثرَ من 130 مجموعة من بيانات التعرف على الوجوه تم جمعها على مدار 43 عاماً. وقد توصلتا إلى أن الباحثين -المدفوعين بكمية البيانات الضخمة التي تتطلبها أنظمة التعلم العميق- قد تخلوا تدريجياً عن طلب الموافقة من الناس؛ ما أدى إلى إدراج أعداد متزايدة من الصور الشخصية في أنظمة المراقبة دون علم أصحابها.

تسبب هذا الأمر كذلك في تزايد الفوضى بشكل كبير في مجموعات البيانات، فقد تتضمن -دون قصد- صوراً للقُصّر، أو تستخدم تصنيفات عنصرية ومتحيزة جنسياً، أو تتضمن صوراً غير متسقة من حيث درجة الجودة والإضاءة. وقد يساعد هذا التوجه على تفسير سبب تزايد حالات فشل أنظمة التعرف على الوجوه، وما يترتب على ذلك من عواقب مثيرة للقلق، مثل حالتي الاعتقال الخاطئتين اللتين وقعتا العام الماضي لرجلين من السود في منطقة ديترويت.

وتقول راجي إن الناس في البداية كانوا حذرين للغاية بشأن عمليات جمع بيانات الوجوه وتوثيقها والتحقق منها، مضيفة: "الآن لم نعد نهتم، لقد تم التخلي عن كل ذلك، فلا يمكنك تتبع مليون وجه. وبعد نقطة معينة، لا يمكنك حتى التظاهر بأن لديك قدرة على التحكم".

تاريخ بيانات التعرف على الوجوه

حددت الباحثتان أربعة مراحل رئيسية مرت بها أنظمة التعرف على الوجوه، كل منها كان مدفوعاً بالرغبة المتزايدة في تحسين هذه التكنولوجيا. وقد اتسمت المرحلة الأولى -التي استمرت حتى تسعينيات القرن الماضي- إلى حد كبير باستخدام أساليب بطيئة حاسوبياً وتتطلب عملاً يدوياً مكثفاً.

ولكن بعد ذلك، ضخت وزارة الدفاع الأميركية -التي حفزها إدراك حقيقة أن أنظمة التعرف على الوجوه يمكنها تتبع وتحديد هوية الأفراد بشكل أكثر فعالية من بصمات الأصابع- 6.5 مليون دولار لبناء أول مجموعة بيانات كبيرة للوجوه. والتقط المشروع 14,126 صورة لـ 1,199 فرداً، في أكثر من 15 جلسة تصوير خلال ثلاث سنوات. لتصدر بعدها قاعدة بيانات تكنولوجيا التعرف على الوجوه "فيريت" (FERET) عام 1996.

شهد العقد التالي ارتفاعاً طفيفاً في الأبحاث الأكاديمية والتجارية الخاصة بالتعرف على الوجوه، وتم بناء عدد أكبر بكثير من مجموعات البيانات التي استعانت غالبيتها العظمى بجلسات تصوير، على غرار جلسات "فيريت"، بعد الحصول على موافقة كاملة من المشاركين. وتقول راجي إن العديد من هذه المجموعات تضمنت أيضاً بيانات وصفية دقيقة، مثل عمر الأشخاص وانتمائهم العرقي، أو المعلومات الخاصة بالإضاءة. غير أن هذه الأنظمة المبكرة كانت تواجه صعوبات في ظروف العالم الحقيقي، ما دفع الباحثين إلى السعي لبناء مجموعات بيانات أكبر حجماً وأكثر تنوعاً.

وقد أدى إصدار مجموعة بيانات Labeled Faces in the Wild (LFW)، عام 2007، إلى فتح الباب على مصراعيه أمام عملية جمع البيانات من خلال البحث على شبكة الإنترنت. وبدأ الباحثون في تنزيل الصور مباشرة من مواقع جوجل وفليكر وياهو دون القلق بشأن الحصول على الموافقة. كما خففت هذه المجموعة القواعد المتعلقة بإدراج القُصّر واستخدام الصور التي يمكن العثور عليها من خلال مصطلحات بحث مثل "طفل" و"حدث" و"مراهق" لزيادة التنوع. وعلى الرغم من أن هذه العملية أتاحت إمكانية بناء مجموعات بيانات أكبر بكثير خلال وقت قصير، إلا أن تقنية التعرف على الوجوه كانت لا تزال تواجه العديد من التحديات نفسها التي كانت تواجهها في السابق. وقد دفع هذا الأمر الباحثين إلى السعي لإيجاد المزيد من الأساليب والبيانات للتغلب على ضعف الأداء الذي حققته هذه التقنية.

وفي عام 2014، استخدمت شركة فيسبوك صور مستخدمي موقعها الإلكتروني لتدريب نموذج تعلم عميق يُدعى ديب فيس (DeepFace). وعلى الرغم من أن الشركة لم تنشر مجموعة البيانات الخاصة بها أبداً، إلا أن الأداء الخارق الذي حققه هذا النظام جعل التعلم العميق هو الأسلوب الفعلي لتحليل الوجوه. وتقول راجي إن عمليات التحقق والتصنيف اليدوية في هذا الوقت باتت شبه مستحيلة، حيث نمت مجموعات البيانات لتضم عشرات الملايين من الصور، كما بدأت ظواهر غريبة للغاية في الظهور مثل التصنيفات التي يتم توليدها تلقائياً، والتي تتضمن مصطلحات مسيئة.

كذلك بدأت طريقة استخدام مجموعات البيانات تتغير في هذا الوقت أيضاً؛ فبدلاً من محاولة مضاهاة الأفراد، بدأت النماذج الجديدة تركز بشكل أكبر على التصنيف. وتقول راجي: "بدلاً من قول ’هل هذه صورة كارين؟ نعم أم لا‘، تحول الأمر إلى ’دعونا نتنبأ بشخصية كارين الداخلية، أو انتمائها العرقي‘، ونصنف الناس وفقاً لهذه الفئات".

وتقول أمبا كاك، مديرة قطاع السياسة العالمية في معهد إيه آي ناو (AI Now) -والتي لم تشارك في كتابة البحث- إن هذه الورقة البحثية تقدم لنا صورة قاتمة عن كيفية تطور صناعة القياسات الحيوية. وتضيف: ربما يكون التعلم العميق قد أنقذ هذه التكنولوجيا من بعض مما تعانيه، إلا أن "هذا التقدم التكنولوجي كانت له تكلفته أيضاً، فقد طرح كل هذه المشكلات التي أصبحنا على دراية تامة بها في الوقت الحالي: الموافقة، واستخلاص البيانات، وقضايا الملكية الفكرية، والخصوصية.

الضرر الذي يولد الضرر

تقول راجي إن التحقيق الذي أجرته في مجال البيانات جعلها تشعر بقلق بالغ إزاء أنظمة التعرف على الوجوه القائمة على تقنيات التعلم العميق.

وتضيف: "إنها أكثر خطورة بكثير؛ فالطلب على البيانات يجبرك على جمع معلومات حساسة للغاية عن عشرات الآلاف من الأشخاص على الأقل، ويجبرك على انتهاك خصوصيتهم، وهذا في حد ذاته أساس الضرر. ومن ثم، نكدس كل هذه المعلومات التي لا يمكنك التحكم فيها، لبناء شيء سيعمل على الأرجح بطرق لا يمكنك حتى التنبؤ بها. هذه فعلاً طبيعة الواقع الذي وصلنا إليه".

وتأمل راجي أن تستحث هذه الورقة الباحثين على التفكير في المفاضلة بين مكاسب الأداء المستمدة من التعلم العميق من ناحية، وفقدان الموافقة والتحقق الدقيق من البيانات والتوثيق الشامل من ناحية أخرى. وتتساءل: "هل كان الأمر يستحق التخلي عن كل هذه الممارسات من أجل التعلم العميق؟".

كما تحث أولئك الذين يرغبون في مواصلة بناء أنظمة التعرف على الوجوه على التفكير في تطوير تقنيات مختلفة. وتقول: "بالنسبة لنا، فإن محاولة استخدام هذه الأداة دون الإضرار بالناس سيتطلب إعادة تصور كل ما نعرفه عنها".