لماذا لا يزال حل مشكلة هلوسة الذكاء الاصطناعي صعباً حتى مع آخر تحديثات تشات جي بي تي وجيميناي؟

أطلقت منظمة الصحة العالمية بوت الدردشة الجديد الخاص بها في 2 أبريل/نيسان مصحوباً بأفضل النوايا.

يحمل هذا البوت اسم "سارة" (SARAH) وهو اختصار بالإنجليزية يضم أوائل الحروف في عبارة "المساعد الذكي لموارد الذكاء الاصطناعي للأغراض الصحية" (Smart AI Resource Assistant for Health)، وقد زُوِّد بشخصية رقمية افتراضية مفعمة بالنشاط، ويعتمد في عمله على نظام جي بي تي 3.5 (GPT-3.5) لتقديم النصائح الصحية بثماني لغات مختلفة إلى الملايين حول العالم، وعلى مدار الساعة، حول كيفية تناول الغذاء الصحي، والإقلاع عن التدخين، وتخفيف التوتر، وغير ذلك.

لكن على غرار ما يحدث مع بوتات الدردشة جميعها، قد تكون إجابات سارة خاطئة أحياناً. فسرعان ما تبين أن بوت الدردشة سارة يقدم معلومات خاطئة. ففي إحدى الحالات، قدم قائمة من الأسماء والعناوين المزيفة في مدينة سان فرانسيسكو لمجموعة من العيادات التي لا وجود لها. وتحذر منظمة الصحة العالمية على موقعها الإلكتروني من أن بوت الدردشة سارة قد لا يكون دقيقاً على الدوام.

بوتات الدردشة مصممة لتنتج الهلوسة

ها نحن نواجه المشكلة ذاتها من جديد. حتى أن إخفاقات بوتات الدردشة باتت الآن ميمات مألوفة. فقد طرحت شركة ميتا (Meta) بوت الدردشة العلمي غالاكتيكا (Galactica) ثم سرعان ما تراجعت عن هذه الخطوة، حيث كان يختلق الأوراق البحثية الأكاديمية، ويولد مقالات ويكيبيديا (Wikipedia) مزيفة حول تاريخ الدببة في الفضاء. وفي فبراير، تلقت شركة الطيران الوطنية في كندا آير كندا (Air Canada) أمراً بالالتزام بسياسة إعادة الأموال إلى العملاء التي ابتدعها بوت الدردشة الذي خصصته لخدمة العملاء. وفي العام الماضي، فُرِضت غرامة على محامٍ بعد أن قدم إلى المحكمة مستندات قضائية مليئة بآراء قضائية واستشهادات قانونية مزيفة اختلقها تشات جي بي تي (ChatGPT).

تكمن المشكلة في أن النماذج اللغوية الكبيرة بارعة للغاية في عملها إلى درجة أن هذه الأشياء التي تختلقها تبدو صحيحة معظم الوقت. وهو ما يجعل الثقة بها أمراً صعباً للغاية.

فهذا الميل إلى اختلاق الأشياء، والمعروف باسم الهلوسة، يُعد أحد أكبر العوائق التي تعوق انتشار بوتات الدردشة وتبنّيها على نطاق أوسع. ما السبب الكامن خلف هذه الهلوسة؟ ولماذا لا نستطيع إيجاد حل لهذه المشكلة؟

الكرة السحرية

حتى نفهم الأسباب التي تدفع بالنماذج اللغوية الكبيرة إلى الهلوسة، يجب أن نلقي نظرة على طريقة عملها. وأول ما يمكن أن نلاحظه هو أن اختلاق الأشياء هو ما صُمِّمَت هذه النماذج لفعله بالضبط. فعندما نوجه سؤالاً إلى بوت دردشة، فإنه يستمد إجابته من النموذج اللغوي الكبير الذي يعتمد عليه. لكن هذه العملية ليست مشابهة للبحث عن المعلومات في قاعدة بيانات، أو استخدام محرك بحث عبر الإنترنت.

فإذا نظرنا داخل نموذج لغوي كبير، لن نجد معلومات جاهزة يمكن استرجاعها على الفور. وإنما سنجد بدلاً من ذلك المليارات من الأرقام. يستخدم النموذج هذه الأرقام لإجراء عمليات حسابية لتركيب إجابته من الصفر، حيث يولد تسلسلات جديدة من الكلمات على الفور. تعطي الكثير من النصوص التي تولدها النماذج اللغوية الكبيرة انطباعاً بأنها مأخوذة بطريقة النسخ واللصق من قاعدة بيانات أو صفحة ويب حقيقية. لكن معظمها في الواقع مجرد اختلاقات، وهذه التشابهات ليست سوى محض صدفة. النموذج اللغوي الكبير أقرب إلى نسخة غير محدودة من لعبة كرة 8 السحرية (لعبة على شكل كرة بلياردو كبيرة تقدم إجابات عشوائية من بين مجموعة محدودة من الإجابات عن أي أسئلة تُطرح عليها) منه إلى موسوعة.

تولد النماذج اللغوية الكبيرة النصوص من خلال التنبؤ بالكلمة التالية ضمن سلسلة متوالية من الكلمات. فإذا صادف النموذج الجملة "جلس القط" (The cat sat) فقد يخمن أن الكلمة التالية هي "على" (on). يعاد تلقيم النموذج بالسلسلة الجديدة الناتجة من الكلمات السابقة، وعندها يمكن أن يخمن أن الكلمة التالية هي "الـ" التعريف (the). وإذا تكررت العملية يمكن أن يخمن أن الكلمة التالية هي "بساط" (mat)، وهكذا دواليك. هذه الحيلة الواحدة كافية لتوليد أي نوع من النصوص التي قد تخطر في بالك تقريباً، بدءاً من قوائم أمازون وشعر الهايكو الياباني ومروراً بأدب المعجبين والرموز البرمجية الحاسوبية ووصولاً إلى مقالات المجلات وغير ذلك. ويحلو لعالم الكمبيوتر والمؤسس المشارك في أوبن أيه آي (OpenAI)، أندريه كارباثي، أن يصف هذه العملية كما يلي: النماذج اللغوية الكبيرة تتعلم كيف تحلم بمستندات الإنترنت.

يمكن أن نعتبر أن المليارات من الأرقام داخل النموذج اللغوي الكبير تمثل جدولاً حسابياً هائلاً يتضمن الاحتمالات الإحصائية لظهور كلمات معينة بجانب كلمات معينة أخرى. تُحدد القيم في هذا الجدول عندما يُدرب النموذج، وهي عملية تضبط هذه القيم مراراً وتكراراً حتى تصبح تخمينات النموذج مطابقة للأنماط اللغوية الموجودة في نصوص مأخوذة من الإنترنت بأحجام من رتبة التيرا بايت.

التنبؤ بكلمة معينة يتطلب من النموذج إجراء الحسابات بالاعتماد على الأرقام الموجودة لديه ببساطة. حيث يحسب النقاط من أجل كل كلمة في قاموس الكلمات لديه، وتعبر نتيجة الحساب المرتبطة بالكلمة الواحدة عن احتمال ورود هذه الكلمة ضمن التسلسل قيد المعالجة. ويختار الكلمة التي تحقق أعلى مجموع من النقاط. باختصار، يمكن تشبيه النماذج اللغوية الكبيرة بآلات يانصيب إحصائية. فعند سحب مقبض هذه الآلة، تدور العجلات وتظهر كلمة.

المخرجات ليست سوى هلوسة

ماذا يمكن أن نستنتج مما سبق؟ كل المخرجات التي تقدمها النماذج اللغوية الكبيرة هلوسة، لكننا لا نطلق عليها هذه التسمية إلا عندما نلاحظ أنها مخطئة. تكمن المشكلة في أن النماذج اللغوية الكبيرة بارعة للغاية في عملها إلى درجة أن هذه الأشياء التي تختلقها تبدو صحيحة معظم الوقت. وهو ما يجعل الثقة بها أمراً صعباً للغاية.

هل نستطيع التحكم فيما تولده النماذج اللغوية الكبيرة بحيث تنتج نصوصاً دقيقة بصورة مضمونة؟ تتسم هذه النماذج بدرجة عالية للغاية من التعقيد، ما يمنع تعديل أرقامها يدوياً. لكن بعض الباحثين يعتقد أن تدريبها على المزيد من النصوص قد يتيح تخفيض وتيرة الأخطاء الناتجة. هذا هو التوجه الذي شهدناه بالفعل، فقد أصبحت النماذج اللغوية الكبيرة أضخم وأفضل من ذي قبل.

ثمة نهج آخر يعتمد على الطلب من النماذج أن تتحقق من عملها على الفور، وتقسيم الإجابات إلى خطوات متتالية. تُعرف هذه الطريقة باسم "تلقيم الأوامر وفق سلسلة الأفكار المتتابعة" (chain-of-thought prompting)، وقد تبين أنها تزيد دقة المخرجات التي تقدمها بوتات الدردشة. هذه الطريقة غير ممكنة حالياً، لكن النماذج اللغوية الكبيرة في المستقبل قد تكون قادرة على التحقق من صحة المعلومات الواردة في النصوص التي تنتجها، بل وحتى العودة إلى نقطة البداية لبناء الإجابة من جديد إذا تبين لها أنها بدأت ترتكب الأخطاء.

لكن أياً من هذه التقنيات غير قادر على إيقاف الهلوسة كلياً، وسيبقى عنصر المصادفة حاضراً في مخرجات هذه النماذج ما دامت احتمالية. فإذا رمينا حجر نرد 100 مرة فسنحصل على نمط معين، وإذا كررنا العملية فسنحصل على نمط آخر. وحتى إذا كان حجر النرد مصمماً، كما النماذج اللغوية الكبيرة، لإنتاج بعض الأنماط أكثر بكثير من أنماط أخرى، فإن النتائج لن تكون متطابقة في كل مرة. وحتى لو كان الخطأ يقع مرة واحدة كل ألف مرة أو كل مائة ألف مرة، فسوف تتراكم الأخطاء لتصل إلى عدد كبير إذا أخذنا بعين الاعتبار عدد مرات استخدام هذه التكنولوجيا يومياً.

كلما زادت دقة هذه النماذج، نصبح أقل صرامة في تطبيق الإجراءات الوقائية. تُظهر الدراسات أن تحسن أداء بوتات الدردشة يجعل المستخدمين أقل قدرة على كشف الخطأ عند وقوعه.

قد يكون أفضل حل لمشكلة الهلوسة هو التحلي بمزيد من الواقعية حيال الهدف من هذه الأدوات. فعندما طُلِب من المحامي الذي استخدم تشات جي بي تي لتوليد مستندات مزورة أن يبرر فعلته، بدا متفاجئاً للغاية مما حدث. وقال للقاضي: "لقد سمعت بهذا الموقع الجديد، وافترضت مخطئاً أنه أقرب إلى محرك بحث فائق القدرة. ولم أستوعب أن تشات جي بي تي يمكن أن يختلق الدعاوى القضائية".