هل يشكّل تشات جي بي تي خطراً وجودياً على موسوعة ويكيبيديا؟

حقوق الصورة: غيتي إيميدجيز

استمع الى المقالة الآن هذه الخدمة تجريبية

تمثّل موسوعة ويكيبيديا (Wikipedia)، حتى الآن، أضخم مَراجع العالم وأكثرها قراءة في التاريخ البشري. لكن من المؤكد أن المحررين الذين يعملون على تحديث محتوى ويكيبيديا والحفاظ عليها غير واثقين من مكانتها بوصفها المصدر الأهم للمعلومات، وبدؤوا يشعرون بالقلق إزاء إمكانية حلول الذكاء الاصطناعي التوليدي محلها. ففي مؤتمر ويكيمانيا (Wikimania) السنوي لمستخدمي الموقع، كانت إحدى الجلسات تحمل عنوان: “تشات جي بي تي (ChatGPT) في مواجهة ويكي جي بي تي”، وقد قال أحد المتحدثين الرئيسيين في اللقاء إن المستخدمين، على ما يبدو، يفضّلون التوجه إلى تشات جي بي تي للحصول على المعلومات بدلاً من زيارة موقع ويكيبيديا.

لطالما عبّر مخضرمو ويكيبيديا عن مخاوفهم من الخطر الوجودي الذي يمثّله تشات جي بي تي، وتنبؤوا بأن تتمكن بوتات الدردشة التي تعتمد على الذكاء الاصطناعي من إزاحة ويكيبيديا عن عرشها، كما حدث عندما تمكنت ويكيبيديا في 2005، وبصورة علنية، من إزاحة موسوعة بريتانيكا عن عرشها.

ويكيبيديا مقابل تشات جي بي تي

غير أنه يبدو لي أن الإشاعات حول “نهاية ويكيبيديا” الحتمية على يدي الذكاء الاصطناعي التوليدي تنطوي على قدرٍ كبير من المبالغة. لا شك أن تطبيق تكنولوجيا الذكاء الاصطناعي سيؤدي إلى تغيير في طريقة استخدام ويكيبيديا، وإحداث تحول في تجربة المستخدم. في الوقت نفسه، من شأن ميزات النماذج اللغوية الكبيرة (التي يشار إليها بالاختصار LLM، مثل تشات جي بي تي) وأخطائها البرمجية أن تؤثّر في مصالح البشر بطرق تدعم ويكيبيديا بدلاً من أن تهدد مكانتها.

ومن أجل الإيضاح، نذكر أن ويكيبيديا تتضمن بعض العناصر من الذكاء الاصطناعي والتعلم الآلي منذ 2002. فالبوتات المؤتمتة على ويكيبيديا يجب أن تنال الموافقة، كما هو منصوص عليه في سياسة البوتات، ويجب أن تخضع للإشراف البشري عموماً. وتجري عملية تدقيق المحتوى بمساعدة البوتات، مثل كلوبوت إن جي (ClueBot NG)، الذي يكشف استخدام الكلمات البذيئة وعلامات الترقيم غير المتوافقة مع معايير الموسوعة مثل “11!!!”. أيضاً، تمثّل الترجمة الآلية حالة استخدام أخرى، فقد ساعدت على توفير المحتوى لأكثر من 334 نسخة من الموسوعة بلغات مختلفة، على نحو يخضع أيضاً للإشراف البشري عموماً. يقول مدير التعلم الآلي في مؤسسة ويكيميديا -وهي المنظمة اللاربحية التي تدعم المشروع- كريس ألبون: “في نهاية المطاف، يتميز مشرفو ويكيبيديا بطابع عمليّ للغاية، وهو من سماتهم الأساسية. فقد كانوا يستخدمون الذكاء الاصطناعي والتعلم الآلي منذ عام 2002 فقط لأن هذه التكنولوجيات أتاحت لهم توفير الوقت بطرق مفيدة لهم”.

بوتات الدردشة ليست جديدة على ويكيبيديا، فما التهديد إذاً؟

يعني هذا أن البوتات ليست شيئاً جديداً بالنسبة لويكيبيديا، غير أن التحديات الجديدة تكمن في النماذج اللغوية الجديدة خارج نطاق الموقع. في وقتٍ سابق من هذا العام، كتبتُ عن طريقة تعامل مشرفي ويكيبيديا مع تشات جي بي تي، الذي ما زال جديداً في تلك الفترة، وقرارهم حول السماح باستخدام المحتوى المُوَلّد ببوتات الدردشة في عملية تأليف مقالات ويكيبيديا. في ذلك الوقت، كان المحررون يشعرون بالقلق -وهو أمر طبيعي ومفهوم- بشأن هلوسات النماذج اللغوية الكبيرة ونتائجها التي تتضمن الكثير من الهراء، واستجابتها للأوامر النصية بمعلومات مزيفة على نحو فاضح ومزودة أيضاً بمراجع واستشهادات مختلفة بالكامل.

ثمة خطر حقيقي ناجم عن لجوء المستخدمين إلى نسخ نصوص تشات جي بي تي مباشرةً إلى ويكيبيديا، ما يؤدي إلى تلويث المشروع بالمعلومات المزيفة. لكن فرض حظر شامل على الذكاء الاصطناعي التوليدي بدا أيضاً قاسياً للغاية وينم عن درجة عالية من التخلف، الذي يعبّر عن الإخفاق في الاستفادة من الأساليب الجديدة في العمل. قال بعض المحررين إن إجابات تشات جي بي تي كانت مفيدة عند استخدامها نقطة انطلاق لبناء الخطوط العامة الأساسية للمقال. وعلى حين يمكن للحظر على الذكاء الاصطناعي التوليدي أن يحافظ على خلو ويكيبيديا من محتوى تشات جي بي تي الرديء، فقد يؤدي أيضاً إلى إضعاف إنتاجية المحررين البشر.

النماذج اللغوية الكبيرة في ويكيبيديا

يعكف مشرفو ويكيبيديا حالياً على وضع مسودة سياسة لاستخدام النماذج اللغوية الكبيرة في المشروع. ويتمحور النقاش بصورة أساسية حول إطار عمل يقوم على أساس “الحرص والشفافية”: حيث يتعين على المحرر البشري أن يصرّح في السجل العلني لتحرير المقال عن استخدام النموذج اللغوي الكبير، ويجب أن يتحمل مسؤولية شخصية إزاء تدقيق محتوى النموذج اللغوي الكبير وضمان دقته. الجدير بالذكر أن السياسة المقترحة لاستخدام النماذج اللغوية الكبيرة مشابهة للغاية لمسألة حاجة معظم بوتات ويكيبيديا إلى درجة ما من الإشراف البشري. اكبح جماح بوتاتك، واكبح جماح كلابك، والآن، يجب أن تكبح جماح نماذجك اللغوية الكبيرة أيضاً.

تفادياً لأي غموض، نذكر أن مجتمع ويكيبيديا يستطيع فرض سلطته على أعضائه من المحررين من حيث استخدام البوتات، لكنه لا يستطيع التأثير في كيفية استخدام الأطراف الخارجية لويكيبيديا. حالياً، أصبحت الرخصة المفتوحة لموسوعة الإنترنت موضع استغلال شركات الذكاء الاصطناعي التوليدي. فقد استُخدِم محتوى ويكيبيديا في تدريب النماذج اللغوية الكبيرة جميعها حتى الآن، ويمثّل الموقع على الدوام تقريباً أضخم مصدر لبيانات التدريب ضمن مجموعات البيانات لهذه الشركات.

وعلى الرغم من أن تشات جي بي تي ابتلع محتوى ويكيبيديا بالكامل، فإنه لا يتسم بما يكفي من التهذيب ليتكلف مشقة نسب المعلومات إلى ويكيبيديا عند استخدامها في إجاباته. وعلى العكس تماماً، فإن بوت الدردشة لا يفصح عادةً عن مصادره على الإطلاق. ينصح المنتقدون بتعزيز الشفافية، والامتناع عن استخدام بوتات الدردشة إلى أن تصبح أنظمة ذكاء اصطناعي قابلة للتفسير.

بطبيعة الحال، ثمة سبب مخيف يمنع بوتات الدردشة من ذكر مصادرها عادةً، وهو أن نظام الذكاء الاصطناعي لا يعرف على الدوام كيف توصل إلى إجابته. اعذروني على هذا التشبيه الغريب، لكن الأساس المعرفي للنموذج اللغوي الكبير التقليدي أشبه بكرة كبيرة من الشعر، فالنموذج اللغوي الكبير يسحب هذه الشعرات من ويكيبيديا وتامبلر (Tumblr) وريديت (Reddit) وغيرها من المصادر دون التمييز بينها. وفي الواقع، فإن النموذج اللغوي الكبير مبرمَج عملياً لتنفيذ مهمة واحدة، وهي التنبؤ بالجملة التالية، دون توضيح المصادر عند الضرورة.

يشعر الصحافيون على وجه الخصوص بقلق كبير بسبب عدم اعتراف تشات جي بي تي بويكيبيديا في إجاباته. فقد نشرت مجلة ذا نيويورك تايمز (The New York Times) مقالاً في يوليو/ تموز حول أنظمة الذكاء الاصطناعي التي تُعيد استخدام معلومات ويكيبيديا، والتأثير السلبي لهذا الأمر على ويكيبيديا، وتسببه بنسيان المستخدمين لدورها المهم خلف الكواليس.

لكنني أشعر بأن معظم مساهمي ويكيبيديا أقل قلقاً من المراسل الصحفي العادي بشأن مسألة توضيح مصادر المعلومات. فهذا الأمر ليس جديداً بالنسبة إلى مشرفي ويكيبيديا. فقبل ظهور النماذج اللغوية الكبيرة، كانت المساعدات الرقمية مثل سيري وأليكسا تستغل معلومات ويكيبيديا دون نسبها إلى مصدرها. (حتى وقت نشر المقال، كانت هذه المساعدات الذكية قد حُدِّثت كي تقول شيئاً من قبيل: “من ويكيبيديا”). أمّا الأهم من هذا فهو أن الإشراف على معلومات ويكيبيديا كان على الدوام عملاً يتسم بالإيثار. يُضيف الناس معلومات جديدة إلى الموقع وهم يتوقعون أن الجميع سيستخدمون هذه المعلومات بالطريقة التي يرونها مناسبة.

أهمية ويكيبيديا لدرء لعنة التكرار الذاتي

وبدلاً من التأثير سلباً على معنويات مشرفي ويكيبيديا المتطوعين من البشر، يمكن أن يؤدي الذكاء الاصطناعي التوليدي إلى إضافة دافع جديد إلى مجموعة الدوافع التي تحثهم على العمل، وهو الرغبة الصادقة في تدريب الروبوتات. أيضاً، ثمة سبب يدفع شركات الذكاء الاصطناعي التوليدي، مثل أوبن أيه آي (OpenAI)، إلى مواصلة دعمها لدور ويكيبيديا بوصفها مدرباً رئيسياً لتشات جي بي تي. فمن المهم أن تحافظ ويكيبيديا على طبيعتها مصدراً معرفياً مكتوباً بأيدي البشر. نحن ندرك الآن أن المحتوى الذي تولده النماذج اللغوية الكبيرة يؤثر في تدريب هذه النماذج بمفعول شبيه بمفعول السم: فإذا لم تكن بيانات التدريب من صنع البشر، ستصبح النماذج اللغوية الكبيرة أكثر غباء على نحو ملحوظ. النماذج اللغوية الكبيرة التي تُدَرب بنسبة كبيرة من نتاجها الخاص عرضة للانهيار، وهو أحد أعراض ما يسمى “لعنة التكرار الذاتي“.

تقول الرئيسة التنفيذية للمنتجات والتكنولوجيا في مؤسسة ويكيميديا، سيلينا ديكلمان: “يجب على شركات الذكاء الاصطناعي التوليدي في العالم أن تجد الطرق اللازمة للحفاظ على مصادر المحتوى البشري الأصيل -وهي العنصر الأكثر أهمية في نظامنا للمعلومات- مستدامةً وفي حالة نمو متواصل”. من المحتمل أن هذه المصلحة المشتركة هي التي دفعت مؤسسات مثل مؤسسة جوجل أو ما يعرف باسم جوجل دوت أورغ (Google.org) ومؤسسة ماسك (Musk Foundation) وفيسبوك وأمازون إلى الانضمام إلى مجموعة المتبرعين الذين قدموا أكثر من مليون دولار إلى مؤسسة ويكيميديا إنداومنت (Wikimedia Endowment)، ويبدو أن شركات الذكاء الاصطناعي أدركت أن الحفاظ على مشروع ويكيبيديا الذي يعتمد على البشر يصب في مصلحتها. (لمزيد من الإيضاح، تعتمد المؤسسة بصورة رئيسية على عدد كبير من التبرعات الصغيرة من أنصار ويكيبيديا وقرائها العاديين، وهو أمر يدعو إلى الارتياح لمن يشعرون بالقلق من زيادة نفوذ الشركات التكنولوجية الكبيرة وتأثيرها على توجه هذه المؤسسة اللاربحية).

نقاط ضعف النماذج اللغوية مصدر ازدهار محتمل لويكيبيديا

يمكن أن تؤدي نقاط الضعف التي تعاني منها بوتات الدردشة التي تعتمد على الذكاء الاصطناعي إلى زيادة انتشار حالات استخدام جديدة لويكيبيديا. ففي يوليو/ تموز، نشرت مؤسسة ويكيميديا إضافة برمجية مساعدة تسمى ويكيبيديا تشات جي بي تي، تُتيح لتشات جي بي تي البحث عن أحدث المعلومات على ويكيبيديا وتلخيصها للرد على أسئلة المعلومات العامة. على سبيل المثال، إذا سألت تشات جي بي تي 3.5، بإصداره القياسي، حول إدانة دونالد ترامب، سيقول بوت الدردشة إنه لا يعرف أي شيء عنه لأنه مدرب على المعلومات الموجودة على الإنترنت وصولاً إلى شهر سبتمبر/ أيلول من عام 2021. لكن استخدام الإضافة المساعدة الجديدة تُتيح لبوت الدردشة تلخيص الأحداث الحالية بدقة. في هذا المثال، يمكن أن نلاحظ أن ويكيبيديا تمارس دوراً أقرب إلى فلتر المياه، فهي تلتقط المياه التي تخرج من صنبور النموذج اللغوي الكبير الخام، وتزيل المعلومات الخاطئة، وتجعل المحتوى متوافقاً مع أحدث المعلومات.

وسواء كانت ويكيبيديا مدمجة بالذكاء الاصطناعي عن طريق بيانات التدريب أو عن طريق إضافة برمجية مساعدة، فمن الواضح أنه من المهم الحفاظ على اهتمام البشر بالإشراف على المعلومات على الموقع. لقد أخبرني ألبون عن عدة مقترحات للاستفادة من النماذج اللغوية الكبيرة في زيادة سهولة ومتعة عملية التحرير على الموقع. وتقوم إحدى الأفكار التي اقترحها مجتمع ويكيبيديا على السماح للنماذج اللغوية الكبيرة بتلخيص النقاشات المطولة على صفحات الحوار، وهي المساحات الخالية من المقالات حيث يناقش المحررون سياسات الموقع. وبما أن عمر ويكيبيديا يتجاوز العشرين عاماً، فإن بعض هذه الصفحات النصية أصبح أطول من رواية الحرب والسلام. لا يمتلك الكثيرون ما يكفي من الوقت لدراسة النقاشات جميعها التي بدأت منذ عام 2005 حول مواصفات المصادر الموثوقة لويكيبيديا، ناهيك بالمصادر الدائمة. وبدلاً من أن نتوقع من المساهمين الجدد دراسة نقاشات تمتدُ على مدى عدة سنوات حول هذه المسألة، يمكن للنموذج اللغوي الكبير ببساطة أن يلخصها في أعلى الصفحة. يقول ألبون: “تكمن أهمية هذا الأمر في التقليل من صعوبة العمل وجعله أقل رهبة، ما يسهل استقطاب المحررين الجدد”.

وقد قال لي الأستاذ المساعد المختص بعلم الحاسوب في المدرسة العليا للكيمياء والفيزياء والإلكترونيات في مدينة ليون الفرنسية (CPE Lyon)، جون سامويل، إن محرري ويكيبيديا الجدد الذين يستقطبهم غالباً ما يجدون صعوبة في البدء بالعمل. يمكن أن يكون البحث عن مصادر موثوقة لاستخدامها في مقالة ما عملاً مضنياً للغاية، ويبدو أن مواليد الجيل زد (Gen Z) يفتقرون إلى الصبر اللازم لتمحيص نتائج البحث على محرك جوجل. عندما تفيض الإنترنت بالمحتوى الذي ولدته الآلات، ستصبح عملية العثور على المصادر العالية الجودة أكثر صعوبة حتى.

لكن سامويل يتوقع مستقبلاً إيجابياً حيث دمجت ويكيبيديا بعضاً من تكنولوجيات الذكاء الاصطناعي لمساعدة المحررين البشر في العثور على المصادر العالية الجودة، والتحقق من هذه المصادر لضمان احتوائها في الواقع على المعلومات التي يزعم البشر أنها موجودة فيها. “لا يمكننا تأخير التقدم. ويجب أن نفكّر في إدماج الأدوات الأحدث التي تعتمد على الذكاء الاصطناعي لتوفير وقت المساهمين”، على حد قول سامويل.

إذا كان ثمة طابع مشترك في الحوارات السلبية حول الذكاء الاصطناعي، فهو الخوف من استحواذ الذكاء الاصطناعي على وظائف البشر. لكن ماذا عن “وظيفة” محرري ويكيبيديا المتطوعين؟

تتضمن الإجابة عدة تفاصيل. فمن ناحية، يُرجّح أن تُؤتمت نسبة كبيرة من الأعمال الرتيبة والتكرارية، مثل إضافة فئات المقالات، وإجراء التنسيقات الأساسية، وتلخيص المقالات على نحو يسهل قراءتها. لكن كتابة النصوص بالمعنى التقليدي، من ناحية أخرى، لم تكن قط محور عمل محرري ويكيبيديا. لطالما كان العمل الأكثر أهمية مرتبطاً بالنقاشات بين أفراد مجتمع ويكيبيديا، والجدل حول المقارنة بين موثوقية المصادر المختلفة، وحول ما إذا كانت هذه الصياغة أو تلك معبرة بدقة أمْ مضللة، والسعي على الدوام إلى تقديم مساهمة تصب في مصلحة الهدف المشترك للجميع، وهو تحسين الموسوعة. ولهذا، من المرجح أن يتوجه مستقبل ويكيبيديا نحو التالي: سيُعهد بالأعمال الرتيبة والمهذبة إلى الذكاء الاصطناعي، على حين سيبقى الجدل والاختلاف -هذا العمل الفوضوي الذي ينطوي على الكثير من المعاني المهمة، ويهدف إلى بناء الإجماع بين أفراد المجتمع- محصوراً بالبشر.