ما هي ميزة جوجل أوفرفيوز من جوجل؟ ولماذا ترتكب أخطاءً كثيرة؟

عندما أعلنت شركة جوجل إطلاقها ميزة البحث بالاعتماد على الذكاء الاصطناعي منذ فترة، أطلقت وعداً بأن "جوجل ستتولى عملية البحث باستخدام محرك بحثها بالنيابة عنك". تحمل الميزة الجديدة اسم "أيه آي أوفرفيوز" (AI Overviews)، وتقدّم لمستخدمي محرك البحث لقطات سريعة مُوَلدة باستخدام الذكاء الاصطناعي وتبرز معلومات وروابط رئيسية تساعدك على العثور على ما تبحث عنه بسرعة وسهولة أكبر ضمن خلاصات مقتضبة تظهر في الجزء الذي يعلو نتائج البحث.

ولسوء الحظ، أنظمة الذكاء الاصطناعي غير موثوقة بطبيعتها. فبعد بضعة أيام من إطلاق أيه آي أوفرفيوز في الولايات المتحدة، سرعان ما بدأ المستخدمون يشاركون أمثلة عن الأخطاء الفادحة التي ظهرت في نتائج الميزة، فقد طلبت من المستخدمين إضافة الصمغ إلى البيتزا، وتناول صخرة صغيرة واحدة يومياً على الأقل، كما قالت إن الرئيس الأميركي السابق آندرو جونسون حصل على شهادات جامعية بين عامي 1947 و2012، على الرغم من أنه توفي في 1875. وهكذا، أعلنت رئيسة قسم البحث في جوجل، ليز ريد، مؤخراً أن الشركة كانت تطبق تحسينات تقنية على النظام من أجل تقليل احتمال توليد إجابات خاطئة عن أسئلة المستخدمين، بما في ذلك تحسين آليات كشف الاستفسارات غير المنطقية، والحد من إدراج المحتوى الساخر والهزلي والمحتوى الذي يولده المستخدمون لتقليل النصائح الخاطئة والمضللة في الإجابات.

لكن، لماذا تقدّم ميزة أيه آي أوفرفيوز معلومات لا يمكن الاعتماد عليها، بل وقد تكون خطيرة في بعض الأحيان؟ وكيف يمكن إصلاحها، إن كان من الممكن حتى إصلاحها؟

كيف تعمل أيه آي أوفرفيوز؟

حتى نفهم سبب الأخطاء التي يرتكبها محرك البحث الذي يعتمد على الذكاء الاصطناعي، يجب أن نطلع على تصميمه الذي يهدف إلى تقديم أفضل نتيجة ممكنة في أثناء العمل. نحن نعلم أن ميزة أيه آي أوفرفيوز تعتمد على نموذج ذكاء اصطناعي توليدي جديد في جيميناي (Gemini)، وهو مجموعة النماذج اللغوية الكبيرة (LLM) من جوجل، التي صُمِمت لمحرك البحث جوجل على وجه الخصوص. أُدمِج هذا النموذج في نظام تصنيف مواقع الويب الأساسي في جوجل، وهو مصمم لسحب النتائج المهمة من قائمته لمواقع الويب.

تعمل معظم النماذج اللغوية الكبيرة ببساطة على التنبؤ بالكلمة التالية (أو الرمز التالي) ضمن تسلسل يجعل الكلمات تظهر مُرتبة بصورة انسيابية، غير أنها معرضة أيضاً للوقوع في مشكلة اختلاق الأشياء. فهذه النماذج لا تمتلك أي حقائق راسخة تعتمد عليها، وتختار كل كلمة بدلاً من ذلك بناءً على حسابات إحصائية فقط، ما يؤدي إلى ما يُعرف بالهلوسات. للالتفاف حول هذه المشكلة، من المرجّح أن نموذج جيميناي في ميزة أيه آي ريفيوز يعتمد على تقنية ذكاء اصطناعي تحمل اسم "التوليد المعزز بالاسترجاع" (Retrieval-augmented generation) أو اختصاراً "راغ" (RAG)، التي تُتيح للنموذج اللغوي الكبير التحقق من مصادر معينة خارج نطاق بياناته التدريبية، مثل صفحات ويب معينة، كما يقول الأستاذ في جامعة واشنطن والمختص بالبحث عبر الإنترنت، تشيراغ شاه.

عندما يُدخل المستخدم استفساره، يقارن النظام محتوى الاستفسار بالمستندات التي تشكّل مصادر معلوماته، ويستخدمه لتوليد الإجابة. وبما أن النظام قادر على مطابقة الاستفسار الأصلي مع أجزاء معينة من صفحات الويب، فهو يستطيع الاستشهاد بالأماكن التي استمد الإجابة منها، وهو شيء لا تستطيع النماذج اللغوية الكبيرة العادية أن تنفذه. من أهم الجوانب الإيجابية لتقنية راغ أن ما تولده من إجابات عن استفسارات المستخدم يجب أن يكون مواكباً لأحدث المستجدات، ودقيقاً من حيث المعلومات المذكورة، وأوثق صلة باستفسار المستخدم، مقارنة بنموذج تقليدي يكتفي بتوليد إجابة بناءً على بياناته التدريبية. غالباً ما تُستخدم هذه التقنية في محاولة منع النماذج اللغوية الكبيرة من الهلوسة. (لم يؤكد لنا متحدث رسمي باسم جوجل إن كانت ميزة أيه آي أوفرفيوز تعتمد على تقنية راغ).

إذاً، لماذا تقدّم هذه الميزة إجابات خاطئة؟

غير أن راغ غير مضمونة على الإطلاق. فحتى يتوصل النموذج اللغوي الكبير الذي يعتمد على راغ إلى إجابة جيدة، يجب أن يستعيد المعلومات بصورة صحيحة، ويولد الإجابة بصورة صحيحة. وتنتج الإجابة الخاطئة عن إخفاق جزء واحد أو كلا جزأي هذه العملية.

وفي حالة الخطأ الذي ارتكبته ميزة أيه آي أوفرفيوز باقتراحها وصفة بيتزا تحتوي على غراء -وهي مستمدة من منشور ساخر على موقع ريديت (Reddit)- فمن المرجّح أن المنشور بدا مرتبطاً بالاستفسار الأصلي الذي طرحه المستخدم حول عدم التصاق الجبن بالبيتزا، لكن خطأ ما وقع في أثناء عملية الاستعادة، كما يقول شاه. ويقول: "لا يعني ارتباط المعلومة بالسؤال أنها صحيحة، غير أن الجزء المتعلق بالتوليد في هذه العملية لا يشكك بهذه المسألة". وبالمثل، إذا صادف نظام راغ معلومات متضاربة، مثل دليل سياسات معين، ونسخة محدّثة من هذا الدليل نفسه، فلن يتمكن من تحديد النسخة التي يجب أن يستمد إجابته منها. بدلاً من ذلك، من المحتمل أن يجمع معلومات من كلا المصدرين لصياغة إجابة قد تكون مضللة.

تقول الأستاذة المختصة بمعالجة اللغة الطبيعية في جامعة لايدن، سوزان فيربيرن: "يولّد النموذج اللغوي الكبير لغة سلسة بناءً على المصادر المقدمة إليه، لكن المعلومات الموجودة في اللغة السلسة ليست صحيحة بالضرورة". وتُضيف قائلة إنه كلما كان الموضوع محدداً بدقة أكبر، زاد احتمال ورود معلومات خاطئة في مخرجات النموذج اللغوي الكبير، وتقول: "هذه المشكلة موجودة في المجال الطبي، وفي مجال التعليم والعلوم أيضاً".

وفقاً للمتحدث الرسمي باسم شركة جوجل، تُعزى الإجابات الخاطئة التي تقدّمها ميزة أيه آي أوفرفيوز في الكثير من الحالات إلى عدم توفر الكثير من المعلومات العالية الجودة على الويب لعرضها في الإجابة، أو التطابق الكبير بين الاستفسار ومواقع ساخرة أو منشورات هزلية. ويقول أيضاً إن الأغلبية العظمى من إجابات أيه آي أوفرفيوز تتضمن معلومات عالية الجودة، وإن الكثير من الأمثلة عن إجاباتها الخاطئة كانت ناتجة عن استفسارات غير شائعة، مضيفاً أن إجابات أيه آي أوفرفيوز التي تتضمن محتوى يمكن أن يكون مؤذياً أو بذيئاً أو مخالفاً للقواعد المفروضة بأي طريقة أخرى لا تظهر في أكثر من استفسار واحد بين كل 7 ملايين استفسار فريد من نوعه. تواصل جوجل إيقاف عمل أيه أي أوفرفيوز عند تلقي استفسارات معينة وفقاً لسياساتها الخاصة بالمحتوى.

ليست المسألة مسألة بيانات تدريبية سيئة فقط

على الرغم من أن خطأ البيتزا والغراء يُعدُّ مثالاً جيداً على اعتماد أيه آي أوفرفيوز على مصدر غير موثوق، فإن هذه الميزة ما زالت قادرة على توليد معلومات خاطئة من مصادر تقدّم معلومات صحيحة. ففي تجربة أجرتها باحثة الذكاء الاصطناعي في معهد سانتا فيه بولاية نيومكسيكو، ميلاني ميتشل، سألت جوجل: "ما عدد الرؤساء المسلمين الذين مروا في تاريخ الولايات المتحدة؟" وقدمت ميزة أيه آي أوفرفيوز الإجابة التالية: "حكم الولايات المتحدة رئيس مسلم واحد، وهو باراك حسين أوباما". وعلى حين أن باراك أوباما نفسه ليس مسلماً، ما يجعل إجابة أيه آي أوفرفيوز خاطئة، فإن النظام استمد معلوماته من أحد فصول كتاب أكاديمي يحمل عنوان "باراك حسين أوباما: أهو أول رئيس أميركي مسلم؟" (Barack Hussein Obama: America’s First Muslim President?) ولهذا، لم يخطئ نظام الذكاء الاصطناعي في استيعاب المغزى الكلي لموضوع الكتاب، بل فسّره أيضاً بصورة مغايرة تماماً، على حد قول ميتشل. وتُضيف قائلة: "يواجه الذكاء الاصطناعي في هذا الجانب بضع مشكلات، إحداها هي العثور على مصدر جيد غير ساخر، أمّا المشكلة الأخرى فهي تفسير محتوى هذا المصدر بصورة صحيحة. وهذه مهمة لطالما كانت صعبة بالنسبة إلى أنظمة الذكاء الاصطناعي، ومن المهم أن نلاحظ أنها يمكن أن ترتكب الأخطاء حتى لو تمكنت من العثور على مصدر جيد".

هل يمكن حل المشكلة؟

في المحصلة، نحن نعلم أن أنظمة الذكاء الاصطناعي غير موثوقة، ولهذا فإن خطر الهلوسة سيبقى موجوداً طالما استمرت هذه الأنظمة بالعمل وفق أسلوب توليد النصوص كلمة تلو الأخرى بناءً على الاحتمالات الإحصائية للكلمات. وعلى حين يرجّح أن يتحسن أداء أيه آي أوفرفيوز مع تطبيق جوجل للمزيد من التعديلات والتحسينات خلف الكواليس، فليس من الممكن أن نثق بأن نتائج هذه الميزة ستكون دقيقة 100%. قالت جوجل إنها تعمل على إضافة قيود تحفيزية لتطبيقها على الاستفسارات التي تَبَيّن أن أيه آي أوفرفيوز لم تكن مفيدة بالقدر المطلوب عند الإجابة عنها، كما أضافت "تحسينات تحفيزية" للأسئلة المتعلقة بالصحة.

ومن الممكن أن تُضيف الشركة خطوة إضافية لعملية استعادة المعلومات بحيث تعطي إشارة عندما يكون الاستفسار محفوفاً بالمخاطر، ما يؤدي إلى رفض النظام توليد إجابة في هذه الحالات، على حد قول فيربيرن. ويقول المتحدث باسم جوجل إن الشركة لا تهدف إلى عرض ميزة أوفرفيوز لاستخدامها في حالات المواضيع الشائنة أو الخطيرة، أو للإجابة عن الاستفسارات التي تشير إلى حالات حساسة. ومن الممكن أن تكون بعض التقنيات، مثل التعلم المعزز بالاعتماد على التوجيهات البشرية، حيث تُدمج الملاحظات البشرية في تدريب بيانات النماذج اللغوية الكبيرة، مفيدة في المساعدة على تحسين جودة إجابات هذه الميزة.

وبالمثل، يمكن أيضاً تدريب النماذج اللغوية الكبيرة بصورة خاصة لأداء مهمة تحديد الأسئلة التي لا يمكن الإجابة عنها، وقد يكون من المفيد أيضاً توجيه النموذج اللغوي الكبير حتى يجري تقييماً دقيقاً لجودة المستند المسترد قبل توليد الإجابة، على حد قول فيربيرن. وتُضيف قائلة: "التعليمات الصحيحة مفيدة جداً!" على الرغم من أن جوجل أضافت علامة إلى إجابات أيه آي أوفرفيوز تحمل عبارة "الذكاء الاصطناعي التوليدي ما زال في المرحلة التجريبية" (Generative AI is experimental)، فقد يكون من الأفضل لها أن تفكر في توضيح الأمر بصورة أكبر من أن الميزة ما زالت في المرحلة التجريبية، وتؤكد أنها غير جاهزة لتقديم إجابات موثوقة بالكامل، على حد قول شاه. ويُضيف قائلاً: "يجب أن تكون الميزة اختيارية بالكامل، إلى أن تتجاوز المرحلة التجريبية، فهي لا تزال حالياً في هذه المرحلة بالتأكيد، وستبقى في هذه المرحلة فترة من الوقت. ويجب ألّا تجبرنا الشركة على استخدامها بوصفها جزءاً من عملية البحث الأساسية".