إليك أداة جديدة لتحديد إجابات بوتات الدردشة التي يمكنك الوثوق بها

تشتهر النماذج اللغوية الكبيرة بقدرتها على اختلاق الأشياء، وفي الواقع، فإن اختلاق أشياء يمثل أفضل مهاراتها. لكن عجزها عن التمييز بين الحقيقة والخيال دفع بالكثير من الشركات إلى التساؤل عما إذا كان استخدامها يستحق هذه المجازفة.

ولهذا، عمدت شركة كلين لاب (Cleanlab) الناشئة المختصة بالذكاء الاصطناعي والمنبثقة عن مختبر الحوسبة الكمومية في معهد ماساتشوستس للتكنولوجيا (إم آي تي) إلى ابتكار أداة جديدة مصممة لتزويد المستخدمين الذين يتعاملون مع أوضاع تنطوي على مخاطر عالية بتصور أفضل حول مدى جدارة هذه النماذج بالثقة حقاً.

"النموذج اللغوي الجدير بالثقة"

تحمل هذه الأداة اسم "النموذج اللغوي الجدير بالثقة" (Trustworthy Language Model)، وهي تعطي تقييماً بقيمة تتراوح بين 0 و1 لأي مخرجات يولدها نموذج لغوي كبير، وذلك وفقاً لموثوقيته. تتيح هذه العملية للمستخدم اختيار الإجابات التي يمكن أن يثق بها والإجابات التي يمكن أن يهملها. بمعنى آخر يمكننا اعتبار هذه الأداة مقياساً للهراء الذي يصدر عن بوتات الدردشة.

تأمل كلين لاب من أداتها أن تجعل النماذج اللغوية الكبيرة أكثر جاذبية للشركات التي تشعر بالقلق بشأن الأشياء التي تختلقها هذه النماذج. يقول الرئيس التنفيذي لكلين لاب، كيرتيس نورثكت: "أعتقد أن الجميع يعرفون أن النماذج اللغوية الكبيرة ستحدث تغييراً في العالم بأسره، غير أن هذه النماذج ما زالت تعاني مشكلة الهلوسات اللعينة".

بدأت بوتات الدردشة تتحول سريعاً إلى الطريقة السائدة التي يلجأ إليها الناس للبحث عن المعلومات عبر الكمبيوتر. كما أن محركات البحث بدأت تشهد تعديلات في تصميمها للاستفادة من هذه التكنولوجيا. وقد باتت اليوم برمجيات أوفيس (Office) التي تستخدمها المليارات من الأشخاص يومياً لإنتاج كل شيء، بدءاً من الفروض المنزلية المدرسية وصولاً إلى مستندات التسويق والتقارير المالية، مزودة ببوتات دردشة مدمجة. وعلى الرغم من ذلك، فقد وجدت دراسة نشرتها في نوفمبر/تشرين الثاني الشركة الناشئة فيكتارا (Vactara)، التي أسسها موظفون سابقون في شركة جوجل، أن بوتات الدردشة تختلق المعلومات في 3% على الأقل من حالات الاستخدام. قد تبدو هذه النسبة ضئيلة، لكنها تمثل احتمال حدوث خطأ لا تحتمله معظم الشركات.

أول حل قابل للتطبيق لمشكلة الهلوسة

بدأت بعض الشركات تستخدم أداة كلين لاب، بما فيها مجموعة بيركلي للأبحاث (Berkeley Research Group)، وهي شركة استشارية يقع مقرها في المملكة المتحدة، وهي مختصة بالنزاعات والتحقيقات المتعلقة بالشركات. يقول المدير المساعد في مجموعة بيركلي للأبحاث، ستيفن غاوثورب، إن أداة النموذج اللغوي الجدير بالثقة تمثل أول حل قابل للتطبيق رآه حتى الآن لمشكلة الهلوسة، حيث يقول: "تمنحنا أداة النموذج اللغوي الجدير بالثقة من كلين لاب قدرة تحليلية تكافئ الآلاف من علماء البيانات".

في 2021، طورت كلين لاب تكنولوجيا تمكنت من اكتشاف الأخطاء في 34 مجموعة بيانات ذائعة الصيت وتُستَخدم لتدريب خوارزميات التعلم الآلي، وتعتمد هذه التكنولوجيا في عملها على قياس الاختلافات الكامنة في المخرجات عبر مجموعة من النماذج المدربة على تلك البيانات.

تستخدم عدة شركات كبيرة هذه التكنولوجيا حالياً، بما فيها جوجل وتسلا (Tesla) والشركة العملاقة في مجال الخدمات المصرفية تشيس (Chase). تعتمد أداة النموذج اللغوي الجدير بالثقة على الفكرة الأساسية نفسها، وهي أن الاختلافات بين النماذج يمكن استخدامها لقياس مدى موثوقية النظام بأكمله، وتطبقها على بوتات الدردشة.

يضع إجابات صحيحة قد تضلل علماء البيانات

في عرض توضيحي قدمته كلين لاب إلى مجلة إم آي تي تكنولوجي ريفيو (MIT Technology Review) مؤخراً، كتب نورثكت سؤالاً بسيطاً موجهاً إلى تشات جي بي تي (ChatGPT): "كم مرة يظهر الحرف ’n‘ في كلمة ’enter‘؟" (How many times does the letter ‘n’ appear in ‘enter’؟) أجاب تشات جي بي تي كما يلي: "يظهر الحرف ’n‘ مرة واحدة في كلمة ’enter‘"
(The letter ‘n’ appears once in the word ‘enter')، وهي إجابة صحيحة تعزز الثقة. لكنك إذا وجهت السؤال إلى تشات جي بي تي عدة مرات، سيقدم الإجابة التالية: "يظهر الحرف ’n‘ مرتين في كلمة ’enter‘"
(The letter ‘n’ appears twice in the word ‘enter.’). يقول نورثكت: "لا يقتصر الأمر على أن النموذج غالباً ما يقدم إجابات خاطئة وحسب، بل يفعل هذا عشوائياً أيضاً، ولا يمكن تخمين النتيجة التي سيقدمها. لماذا لا يستطيع هذا النموذج اللعين أن يخبر المستخدم ببساطة بأنه سيقدم إجابات مختلفة طوال الوقت؟".

تسعى كلين لاب إلى توضيح هذه العشوائية بدرجة أكبر. وجه نورثكت السؤال نفسه إلى أداة النموذج اللغوي الجدير بالثقة. وحصل على الإجابة التالية: "يظهر الحرف ’n‘ مرة واحدة في كلمة ’enter‘"
(The letter ‘n’ appears once in the word ‘enter)، كما أن الأداة منحت الإجابة تقييماً قدره 0.63. إن الحصول على إجابة صحيحة في 6 مرات من أصل كل 10 مرات ليس بالنتيجة المشجعة، ما يشير إلى أنه ينبغي ألا نثق بإجابة بوت الدردشة عن هذا السؤال.

إنه مثال بسيط، لكنه يوضح الفكرة. يقول نورثكت إننا إذا تجاهلنا نسبة الإجابات الصحيحة، قد يظن المرء أن بوت الدردشة كان على علم بما يتحدث عنه. تكمن المشكلة في أن بضع إجابات صحيحة قد تكون كافية لتضليل علماء البيانات الذين يختبرون النماذج اللغوية الكبيرة في مواقف عالية الخطورة، حيث تدفعهم إلى الافتراض بأن الإجابات المستقبلية ستكون صحيحة أيضاً: "يجربون الأشياء ويجربون بعض الأمثلة، ويعتقدون أن هذا الأسلوب ناجح. وبعد ذلك، يفعلون أشياء تؤدي إلى اتخاذ قرارات سيئة للغاية في مجال الأعمال".

تقنيات تعتمد عليها الأداة الجديدة

تعتمد أداة النموذج اللغوي الجدير بالثقة على عدة تقنيات لحساب تقييماتها. ففي البداية، يُرسَل كل استعلام موجه إلى الأداة إلى عدة نماذج لغوية كبيرة مختلفة. تستخدم كلين لاب خمسة إصدارات من نموذج دي بي آر إكس (DBRX) المفتوح المصدر، وهو نموذج طورته شركة الذكاء الاصطناعي داتابريكس (Databricks) التي يقع مقرها في مدينة سان فرانسيسكو. (غير أن هذه التكنولوجيا صالحة للعمل مع أي نموذج، كما يقول نورثكت، بما في ذلك نماذج لاما [Llama] من شركة ميتا [Meta] أو سلسلة جي بي تي [GPT] من شركة أوبن أيه آي [OpenAI]، وهي النماذج التي يعتمد عليها تشات جي بي تي).

إذا كانت الإجابات التي يقدمها كل من هذه النماذج متطابقة أو متشابهة، فسوف تسهم في الحصول على درجة أعلى من التقييم. في الوقت نفسه، ترسل أداة النموذج اللغوي الجدير بالثقة أيضاً نسخاً معدلة من السؤال الأصلي إلى كل نموذج من نماذج دي بي آر إكس، حيث تستعيض عن بعض الكلمات فيها بكلمات أخرى تحمل المعنى نفسه. أيضاً، إذا كانت إجابات الاستعلامات المترادفة متشابهة، فسوف يؤدي هذا إلى زيادة درجة التقييم. يقول نورثكت: "نجري تعديلات مختلفة على الأسئلة حتى نحصل على مخرجات مختلفة وندرس مدى توافقها".

تستطيع الأداة أيضاً دفع نماذج متعددة إلى إجراء اختبارات متبادلة للإجابات، كما يقول نورثكت: "يصبح الأمر أشبه بجلسة نقاش بين النماذج: هذه هي إجابتي، ما رأيك؟ حسناً، هذه إجابتي أنا، ما رأيك؟ ونطلق العنان لهذه النماذج حتى تتبادل الحديث".

تخضع هذه التفاعلات للمراقبة والقياس، وتؤثر على نتيجة التقييم أيضاً. وبالنسبة إلى عالم الكمبيوتر في مركز مايكروسوفت للأبحاث في جامعة كامبريدج بالمملكة المتحدة، نِك ماكينا، الذي يعمل على النماذج اللغوية الكبيرة المخصصة لتوليد الرموز البرمجية، فإن النتائج تدعو إلى التفاؤل إزاء فائدة هذه الطريقة. لكنه يشك في أنها ستكون مثالية. ويقول: "أحد المزالق التي نراها في هلوسات النماذج هو قدرتها على الانتشار خفية".

مساعد لبوتات الدردشة الأخرى

أجرت كلين لاب مجموعة من الاختبارات على عدة نماذج لغوية كبيرة مختلفة، وأظهرت أن درجات الجدارة بالثقة التي تخصها تتوافق بشدة مع دقة إجابات هذه النماذج. هذا يعني أن الدرجات القريبة من 1 تتوافق مع الإجابات الصحيحة، على حين أن الدرجات القريبة من 0 تتوافق مع الإجابات الخاطئة. في اختبار آخر، وجدت الشركة أيضاً أن استخدام أداة النموذج اللغوي الجدير بالثقة مع جي بي تي 4 (GPT-4) أدى إلى إجابات أدق مما يمكن الحصول عليه عند استخدام جي بي تي 4 بمفرده.

تولد النماذج اللغوية الكبيرة النصوص من خلال التنبؤ بالكلمة التالية الأكثر ترجيحاً ضمن سلسلة من الكلمات. تخطط كلين لاب في الإصدارات المستقبلية من الأداة لزيادة دقة نتائج تقييمها من خلال الاعتماد على الاحتمالات التي استخدمها النموذج لإجراء تلك التنبؤات. كما تسعى أيضاً إلى الوصول إلى القيم العددية التي تقرنها النماذج بكل كلمة في قاموس الكلمات لديها، التي تستخدمها في حساب تلك الاحتمالات.

تقدم منصات معينة هذا المستوى من التفاصيل، مثل منصة بيدروك (Bedrock) التابعة لشركة أمازون (Amazon)، التي تستطيع الشركات استخدامها لتشغيل النماذج اللغوية الكبيرة. اختبرت كلين لاب طريقتها معتمدة على بيانات قدمتها مجموعة بيركلي للأبحاث. كانت الشركة في حاجة إلى البحث عن دلالات تتعلق بمشاكل الامتثال للقوانين في مجال الرعاية الصحية، وذلك ضمن عشرات الآلاف من وثائق الشركات.

يتطلب تنفيذ هذه العملية يدوياً بالاعتماد على طاقم مدرب فترة تصل إلى عدة أسابيع. استخدمت مجموعة بيركلي للأبحاث أداة النموذج اللغوي الجدير بالثقة للتحقق من الوثائق، وتمكنت من تحديد الوثائق التي كان بوت الدردشة أقل ثقة بشأنها، وتحققت من هذه الوثائق فقط. يقول نورثكت إن هذه الطريقة أدت إلى تخفيف الجهد بنسبة 80% تقريباً.

في اختبار آخر، تعاونت كلين لاب مع مصرف كبير (رفض نورثكت الإفصاح عن اسم هذا المصرف، لكنه قال إنه من منافسي لمصرف غولدمان ساكس [Goldman Sachs]). احتاج المصرف، على غرار مجموعة بيركلي للأبحاث، إلى البحث عن دلالات تتعلق بمطالبات التأمين في 100,000 وثيقة تقريباً. ومرة أخرى، أدى استخدام أداة النموذج اللغوي الجدير بالثقة إلى تخفيض عدد الوثائق التي احتاجت إلى تدقيق يدوي بنسبة تتجاوز النصف.

يتطلب تشغيل كل استعلام عدة مرات من خلال عدة نماذج فترة أطول وتكلفة أعلى بكثير من العملية التكرارية العادية جيئة وذهاباً باستخدام بوت دردشة واحد فقط. لكن كلين لاب تطرح أداة النموذج اللغوي الجدير بالثقة بوصفها خدمة متميزة لأتمتة المهام العالية المخاطر التي كانت سابقاً خارج نطاق عمل النماذج اللغوية الكبيرة.

لا تكمن الفكرة في أن تحل الأداة محل بوتات الدردشة الموجودة حالياً، بل في أداء عمل الخبراء البشر. فإذا كانت الأداة قادرة على تخفيض الوقت اللازم لتوظيف الاقتصاديين أو المحامين المهرة بتكلفة 2,000 دولار في الساعة، فسوف تصبح تكاليفها مبررة، كما يقول نورثكت. يأمل نورثكت على المدى البعيد أن تكنولوجيته ستساعد على إطلاق القدرات الكامنة للنماذج اللغوية الكبيرة وفتح مجال الاستفادة منها أمام نطاق أكبر من المستخدمين من خلال الحد من انعدام اليقين بشأن إجاباتها. ويقول: "إن مسألة الهلوسات ليست مشكلة تتعلق بالنماذج اللغوية الكبيرة. بل هي مشكلة تتعلق بانعدام اليقين".