مئات من أدوات الذكاء الاصطناعي في مواجهة كوفيد.. دون فائدة تُذكر

عندما تفشى كوفيد-19 في أوروبا في مارس 2020، غرقت المستشفيات في أزمة صحية لا يمكن استيعابها حتى يومنا هذا. تقول لوري وينانتس، عالمة الأوبئة في جامعة ماستريخت في هولندا والتي تدرس الأدوات التنبؤية: "لم يكن لدى الأطباء أدنى فكرة عن كيفية إدارة هؤلاء المرضى".

لكن كانت تتوافر بيانات صادرة عن الصين التي انطلقت في سباقها في وقت أبكر بأربعة أشهر للتصدي للوباء. فإذا أمكن حينئذٍ تدريب خوارزميات التعلم الآلي على تلك البيانات لمساعدة الأطباء على فهم ما يتعاملون معه واتخاذ القرارات، فقد يؤدي ذلك إلى إنقاذ الأرواح. تقول وينانتس: "قلت لنفسي: ’إنه الوقت الأمثل حتى يثبت الذكاء الاصطناعي فائدته’، لقد عقدت آمالاً عريضة على ذلك".

بيد أن تلك الآمال ذهبت أدراج الرياح، رغم الجهود الكبيرة التي بذلتها الفرق البحثية حول العالم لتحويلها إلى حقيقة. وعلى وجه الخصوص، سارع مجتمع الذكاء الاصطناعي إلى تطوير برامج اعتقد الكثيرون أنها ستسمح للمستشفيات بتشخيص المرضى أو فرزهم بشكل أسرع، ما كان من شأنه نظرياً أن يوفر الدعم الذي كان العاملون في الخطوط الأمامية في أمسّ الحاجة إليه.

وفي المحصلة، تم تطوير عدة مئات من الأدوات التنبؤية، لكن لم يُحدث أي منها فرقاً حقيقياً، بل ربما كان بعضها ضاراً.

تلك هي النتيجة التي توصلت إليها عدة دراسات منشورة على امتداد الأشهر القليلة الماضية. في يونيو، أصدر معهد تورينج، المركز الوطني البريطاني لعلوم البيانات والذكاء الاصطناعي، تقريراً يلخص مناقشات سلسلة من ورش العمل التي عقدها في أواخر عام 2020. وكان الإجماع واضحاً على أن أدوات الذكاء الاصطناعي لم تحمل تأثيراً يُذكر -إن وجد- في مواجهة كوفيد.

غير ملائم للاستخدام السريري

يعكس هذا الإجماع نتائج دراستين رئيسيتين تناولتا تقييم مئات الأدوات التنبؤية التي تم تطويرها العام الماضي. كانت وينانتس المؤلف الرئيسي لإحداها، وهي مراجعة منشورة في المجلة الطبية البريطانية ولا تزال قيد التحديث مع إصدار أدوات جديدة واختبار الأدوات الموجودة. لقد درست هي وزملاؤها 232 خوارزمية لتشخيص المرضى أو التنبؤ بمدى تطور الأعراض عند المصابين بالمرض. وتوصلوا إلى أن أياً من هذه الخوارزميات لم تكن صالحة للاستخدام السريري. وحددوا اثنتين منها فقط باعتبارهما واعدتين بما يكفي ليختبرونهما مستقبلاً.

تقول وينانتس: "إنه أمر صادم! عندما بدأت بهذه الدراسة، كان لدي بعض المخاوف، لكن ما توصلنا إليه كان أعظم من مخاوفي".

وكانت دراسة وينانتس مدعومة بمراجعة كبيرة أخرى أجراها ديريك دريجز، باحث التعلم الآلي في جامعة كامبريدج وزملاؤه، ونشرت في نيتشر ماشين إنتيليجينس (Nature Machine Intelligence). قام هذا الفريق بتمحيص نماذج التعلم العميق الخاصة بتشخيص الإصابة بكوفيد والتنبؤ بدرجة الخطورة على المريض بناء على الصور الطبية مثل صور الأشعة السينية للصدر والتصوير المقطعي الحاسوبي للصدر (CT). وقد أخضعوا 415 أداة منشورة للدراسة وتوصلوا (مثل وينانتس وزملائها) إلى أن أياً منها لا يصلح للاستخدام السريري.

يقول دريجز، الذي يعمل هو الآخر على تطوير أداة تعلم آلي لمساعدة الأطباء أثناء الوباء: "شكَّل هذا الوباء اختباراً حقيقياً لقدرات الذكاء الاصطناعي والطب. كان اختباراً لقدرتنا على قطع شوط طويل في اكتساب ثقة الجمهور بعملنا، لكنني أعتقد أننا لم ننجح في هذا الاختبار".

وجد كلا الفريقين أن الباحثين قد كرروا نفس الأخطاء الأساسية في طريقة تدريب أو اختبار أدواتهم. وغالباً ما تفضي الافتراضات الخاطئة حول البيانات إلى عدم نجاح النماذج المدربة في العمل على النحو المطلوب.

ورغم أن وينانتس ودرجز لا يزالان مؤمنان بقدرة الذكاء الاصطناعي على المساعدة، لكنهما يخشيان من إمكانية تَسبُّبه في الأذى إذا بُني بطريقة خاطئة؛ فقد يخطئ في تشخيص أو يقلل من جدية الخطر على الأشخاص الأكثر عرضة لتطور الأعراض. ويقول دريجز: "هناك الكثير من الضجيج الإعلامي اليوم حول نماذج التعلم الآلي وقدراتها".

إن الإفراط في التوقعات والآمال يشجع على التسرع في استخدام هذه الأدوات قبل أن تصبح جاهزة. وقال كل من وينانتس ودريجز إن عدداً قليلاً من الخوارزميات التي درساها قد تم استخدامها بالفعل في المستشفيات، وإن بعضها يتم تسويقه من قبل مطورين من القطاع الخاص. تقول وينانتس: "أخشى أن يكونوا قد ألحقوا الضرر بالمرضى".

إذن، أين الخلل؟ وكيف يمكننا سد هذه الفجوة؟ إذا كان هناك جانب إيجابي لكل ذلك، فهو أن الوباء قد أوضح للعديد من الباحثين أنه لا بد من تغيير طريقة بناء أدوات الذكاء الاصطناعي. تقول وينانتس: "لقد سلط الوباء الضوء على المشكلات التي كنا نعاني منها ولا نبحث عن حلول لها منذ بعض الوقت".

أين مكمن الخلل؟

ترتبط العديد من المشكلات المكتشفة بضعف جودة البيانات التي استخدمها الباحثون لتطوير أدواتهم. تم جمع المعلومات حول مرضى كوفيد، بما في ذلك الفحوصات الطبية، ومشاركتها في خضم جائحة عالمية، وغالباً ما قام بجمعها الأطباء نفسهم الذين يكافحون لعلاج هؤلاء المرضى. أراد الباحثون تقديم مساعدة سريعة، وكانت هذه هي مجموعات البيانات العامة الوحيدة المتاحة. لكن هذا يعني أن العديد من الأدوات قد تم بناؤها باستخدام بيانات موسومة بشكل خاطئ أو بيانات مستقاة من مصادر غير معروفة.

يشير دريجز إلى مشكلة ما يسميها "مجموعات بيانات فرانكشتاين"، التي يتم جمعها من مصادر متعددة ودمجها معاً وقد تحتوي بالتالي على نسخ مكررة. هذا يعني أن بعض الأدوات يتم اختبارها في نهاية المطاف على نفس البيانات التي تم تدريبها عليها؛ ما يجعلها تبدو أكثر دقة مما هي عليه في الحقيقة.

كما أن ذلك يشوش على أصل مجموعات بيانات معينة. وبالتالي قد يفوت الباحثون بعض الميزات المهمة؛ وهو ما يسبب انحرافاً أثناء تدريب نماذجهم. استخدم الكثيرون -عن غير قصد- مجموعة بيانات تحتوي على صور صدر للأطفال الذين لم يصابوا بالفيروس كأمثلة لما تبدو عليه الحالات غير المصابة بالفيروس. ولكن نتيجة لذلك، تعلمت أنظمة الذكاء الاصطناعي التعرف على الأطفال، وليس اكتشاف الإصابة بكوفيد.

قامت مجموعة دريجز بتدريب نموذجها الخاص باستخدام مجموعة بيانات تحتوي على مزيج من صور الصدر التي تم التقاطها للمرضى في إحدى الوضعيتين: الاستلقاء والوقوف. وبما أن المرضى الذين تم التقاط صور الصدر لهم في وضعية الاستلقاء كانوا أكثر احتمالاً أن يكونوا مصابين بأعراض خطيرة، فقد تعلم نظام الذكاء الاصطناعي مخطئاً أن يتنبأ بمخاطر جسيمة من الإصابة بكوفيد بناء على وضعية التقاط الصورة.

وفي حالات أخرى، تبين أن بعض أنظمة الذكاء الاصطناعي كانت تتأثر بنمط الخط الذي استخدمته بعض المستشفيات لوسم الصور الطبية. ونتيجة لذلك، أصبحت الخطوط المستخدمة في المستشفيات التي تستضيف أعداداً كبيرة من الحالات الخطيرة أحد عوامل التنبؤ بمخاطر كوفيد.

تبدو هذه الأخطاء واضحة عند التدقيق الآن. ويمكن إصلاحها عن طريق تعديل النماذج إذا كان الباحثون على دراية بها. كما أنه من الممكن الاعتراف بأوجه القصور فيها وإصدار نموذج أقل دقة ولكنه أقل تضليلاً. لكن تم تطوير العديد من الأدوات إما من قبل باحثين في الذكاء الاصطناعي يفتقرون إلى الخبرة الطبية لاكتشاف العيوب في البيانات أو من قبل باحثين طبيين يفتقرون إلى المهارات الرياضية لاكتشاف وحلّ تلك العيوب.

يسلط دريجز الضوء على مشكلة أقل وضوحاً وهي "تحيز التضمين"، أي التحيز الذي يتسلل في مرحلة وسم مجموعات البيانات. وعلى سبيل المثال، تم تصنيف العديد من الصور الطبية وفقاً لرأي اختصاصي الأشعة الذي التقطها وقال إنها تظهر إصابة بكوفيد. لكن هذا الأسلوب يفضي إلى دمج أو إقحام أي تحيزات لذلك الطبيب في الحقائق المرجعية لمجموعة البيانات. يقول دريجز إنه سيكون من الأفضل وسم الصورة الطبية بنتيجة اختبار تفاعل البوليميراز المتسلسل بدلاً من رأي طبيب واحد. ولكن لا يتوفر دوماً الوقت الكافي للالتزام بالدقة الإحصائية في المستشفيات المزدحمة.

هذا لم يمنع البعض من الاندفاع لاستخدام هذه الأدوات في الممارسة السريرية. تقول وينانتس إنه من غير الواضح أي منها يتم استخدامه أو كيفية استخدامها. تقول المستشفيات أحياناً إنها تستخدم إحدى الأدوات لأغراض البحث فقط؛ ما يجعل من الصعب تقييم مدى اعتماد الأطباء عليها. وتضيف: "هناك الكثير من السرية بهذا الشأن".

طلبت وينانتس من إحدى الشركات، التي كانت تسوّق خوارزميات التعلم العميق، مشاركة المعلومات حول نهجها ولكنها لم تتلقَّ أي رد منها. ثم وجدت لاحقاً العديد من النماذج المنشورة من باحثين مرتبطين بهذه الشركة، وكلهم معرضون بدرجة عالية لخطر التحيز. وتقول: "نحن لا نعرف في الواقع ما الأدوات التي تطبقها الشركة".

وفقاً لوينانتس، فإن بعض المستشفيات تقوم حتى بتوقيع اتفاقيات عدم إفشاء معلومات مع مزودي أدوات الذكاء الاصطناعي الطبي. وعندما سألت الأطباء عن الخوارزميات أو البرامج التي يستخدمونها، أخبروها أحياناً أنه لا يُسمح لهم بالإفصاح عن هذه المعلومة.

كيف يمكن إصلاح هذه المشاكل؟

ما الحل؟ من شأن توفير بيانات أفضل أن يساعد في حل المشكلة، لكنه أمر بالغ الصعوبة في أوقات الأزمات. من الأهمية بمكان تحقيق أقصى استفادة من مجموعات البيانات المتاحة بين أيدينا. يقول دريجز إن أبسط خطوة تتمثل في بناء تعاون أكبر بين فرق الذكاء الاصطناعي والأطباء. كما ينبغي على الباحثين مشاركة نماذجهم والكشف عن كيفية تدريبها حتى يتمكن الآخرون من اختبارها والبناء عليها. ويوضح: "يمكننا الشروع بهاتين الخطوتين اليوم، وقد تساعدان في حل 50% من المشاكل التي حددناها".

سيغدو الحصول على البيانات أسهل أيضاً إذا تم وضع معايير محددة لتنسيقات البيانات، كما يقول بلال متين، الطبيب الذي يقود فريق التكنولوجيا السريرية في ويلكوم تراست (Wellcome Trust)، وهي مؤسسة خيرية عالمية تعنى بالبحوث الصحية ومقرها في لندن.

هناك مشكلة أخرى حددها كل من وينانتس ودريجز ومتين، وهي أن معظم الباحثين قد سارعوا إلى تطوير نماذجهم الخاصة بدلاً من العمل معاً أو تحسين النماذج الموجودة. وكانت النتيجة أن الجهد الجماعي للباحثين حول العالم أنتج مئات من الأدوات المتواضعة في الأداء، بدلاً من تطوير عدد قليل من الأدوات المدربة والمختبرة بشكل جيد وسليم.

تقول وينانتس: "تتشابه هذه النماذج بدرجة كبيرة، فجميعها تقريباً تستخدم نفس الأساليب مع تعديلات طفيفة، ونفس المدخلات، وكلها ترتكب نفس الأخطاء. إذا قام كل هؤلاء الأشخاص الذين يصنعون نماذج جديدة بدلاً من ذلك باختبار النماذج التي كانت متاحة بالفعل، فربما نحصل على نموذج ذي فائدة حقاً في الاستخدام السريري".

يعد هذا الأمر -نوعاً ما- مشكلة قديمة في مجال البحث العلمي؛ إذ هناك القليل من الحوافز المهنية التي تدفع الباحثين الأكاديميين إلى مشاركة أبحاثهم أو التحقق من صحة النتائج الحالية. يقول متين إنه لا مكافأة تحفز الباحثين على المضي قدماً وقطع الميل الأخير الذي ينقل التكنولوجيا من "طاولة المختبر إلى الطاولة بجانب السرير".

لمعالجة هذه المشكلة، تدرس منظمة الصحة العالمية إبرام اتفاقية للتبادل الطارئ للبيانات يتم تفعيلها في أوقات الأزمات الصحية العالمية. ويقول متين إن ذلك سيسمح للباحثين بنقل البيانات عبر الحدود بسهولة أكبر. وقبل قمة G7 في المملكة المتحدة في يونيو، طالبت المجموعات العلمية الرائدة العاملة في الدول المشاركة بضرورة "جاهزية البيانات" استعداداً لحالات الطوارئ الصحية في المستقبل.

ورغم أن مثل هذه المبادرات تبدو غامضة بعض الشيء، ودائماً ما توحي دعوات التغيير بأنها أقرب إلى تفكير التمني، لكن متين يتمتع بما يسميه نظرة "ساذجة في التفاؤل". توقفَ زخمُ مثل هذه المبادرات قبل الوباء. يقول: "شعرت أنه السعي لتحقيق هذه المبادارت بدا مشابهاً لتسلق جبل عالٍ لا يستحق المنظر من أعلاه عناء تسلقه. لكن كوفيد فرض عودة الكثير من هذه المبادرات إلى جداول الأعمال".

ويختم متين قائلاً: "سيبقى محكوماً علينا بتكرار الأخطاء نفسها إذا لم نقتنع بأهمية التعامل مع جميع المشكلات حتى تلك التي لا تثير اهتمامنا. إنه لمن غير المقبول ألا نقتنع فعلاً بذلك. إن نسيان دروس هذا الوباء يعد خيانة لأرواح أولئك الذين سلبهم الوباء حياتهم".