تحقيق يكشف أهم المواقع التي يستقي منها «تشات جي بي تي» أجوبته

قبل أكثر من عام، كانت العديد من شركات التكنولوجيا الكبرى قد امتلكت بالفعل تقنيات ذكاء اصطناعي متقدمة ونماذج لغوية متطورة، ومع ذلك فقد فضّلت معظم هذه الشركات -وعلى رأسها جوجل- أن تتبع نهجاً حذراً فيما يتعلق بتحويل هذه التقنيات إلى منتجات تجارية وإتاحتها للجمهور.

ولعل حادثة فصل المهندس السابق في جوجل بليك ليموين، من عمله، بعدما ادعى أن نموذج لامدا (LaMDA) الذي طوّرته الشركة قد اكتسب وعياً، تدل على مدى الحذر والسرية الذي كانت تتعامل به الشركات عموماً مع مثل هذه التقنيات. بيد أن كل هذا تغير بدءاً من شهر ديسمبر/ كانون الأول الماضي، بعدما أطلقت شركة "أوبن أيه آي" بوت الدردشة "تشات جي بي تي"، لتشعل معه شرارة سباق محموم بين كبرى الشركات، وهو سباق لم يهدأ حتى اللحظة.

واشنطن بوست تحقق في "سي فور"

على الرغم من التقدم السريع الذي شهدته النماذج اللغوية وبوتات الدردشة خلال الشهور الأخيرة، تظل هناك حقيقة لم تتغير: هذه البوتات لا تفهم حرفاً مما تقول، وتكرر فقط الكلام البشري لأن الذكاء الاصطناعي الذي يدعمها قد تغذى على قدرٍ هائل من النصوص، معظمها مأخوذ من الإنترنت.

لكن هل تساءلت يوماً من أين تأتي النصوص التي تستخدمها الشركات لتدريب نماذجها؟ وما نوع البيانات التي تتضمنها مواقع الويب المستخدمة في هذه العملية؟ نظراً للتكتم الذي تفرضه الشركات حول الأمر، حاولت صحيفة واشنطن بوست الأميركية الإجابة عن هذا السؤال من خلال تحقيق مطول أجرته بالتعاون مع علماء من معهد آلين للذكاء الاصطناعي (Allen Institute for AI)، قامت خلاله بفحص إحدى مجموعات البيانات الكبيرة للكشف عن أنواع مواقع الويب التي تدخل في بيانات تدريب الذكاء الاصطناعي.

قام محررو الصحيفة بتحليل مجموعة بيانات سي فور (C4)، وهي "لقطة لحظية" ضخمة لمحتويات نحو 15 مليون موقع تم استخدامها لتوجيه بعض النماذج اللغوية الشهيرة باللغة الإنجليزية، بما في ذلك نموذج تي-5 (T5) من جوجل ولاما (LLaMA) من فيسبوك. وكلمة لقطة لحظية (Snapshot) هنا تعني أن مجموعة البيانات تتضمن محتوى من عينة من صفحات الويب في وقت معين.

تصنيف المواقع في مجموعة البيانات

في البداية، صنّف القائمون على التحقيق مواقع الويب إلى عدة تصنيفات رئيسية، لكنهم لم يتمكنوا من تصنيف نحو ثُلث المواقع، لأن معظمها لم يعد يظهر على الإنترنت. اعتمد تصنيف العشرة ملايين موقع المتبقية على عدد الرموز المميزة (tokens) التي ظهرت من كل منها في مجموعة البيانات. والرموز هي أجزاء صغيرة من النص تُستخدم لمعالجة المعلومات غير المنظمة، وتكون عادةً كلمة أو عبارة.

وقد قاد هذا التصنيف إلى ظهور 11 فئة رئيسية تندرج تحتها المواقع المستخدمة في مجموعة البيانات: المواقع التجارية والصناعية، والأخبار ووسائل الإعلام، والتكنولوجيا، والفنون والترفيه، والصحة والعلوم، والهوايات والتسلية، والوظائف والتعليم، والمنازل والحدائق، والسفر، والمجتمع، والقانون والحكومة.

بشكلٍ عام، هيمنت المواقع المتعلقة بمجالات مثل الصحافة والترفيه وتطوير البرمجيات والطب وإنشاء المحتوى على مجموعة البيانات، وهو ما يرى المحررون أنه يفسّر سبب تهديد الموجة الجديدة من الذكاء الاصطناعي لهذه المجالات تحديداً. وكانت المواقع الثلاثة الأكثر استخداماً بالترتيب هي:

موقع جوجل بايتنتس (patents.google.com) الذي يضم نصوصاً من براءات الاختراع الصادرة حول العالم.
موقع الموسوعة المجانية الشهيرة ويكيبيديا (wikipedia.org).
موقع سكريبد (scribd.com) وهو خدمة اشتراك في الكتب الإلكترونية والكتب الصوتية.

أبرز فئات المواقع

يوضّح التحقيق أن المواقع التجارية والصناعية شكّلت أكبر فئة في القائمة، حيث جاءت 16% من الرموز المميزة المصنّفة من هذه الفئة من المواقع، ويتصدر هذه الفئة موقع فول (fool.com) الذي يقدّم مشورات استثمارية، والذي جاء في المرتبة الـ 13 في الترتيب الإجمالي، ثم موقع كيك ستارتر (kickstarter.com) الذي يُتيح للمستخدمين التمويل الجماعي للمشاريع الإبداعية (المرتبة 25).

كانت مواقع التكنولوجيا هي ثاني أكبر الفئات في القائمة، حيث شكّلت 15% من الرموز المميزة المصنفة.

ويتصدر هذه الفئة موقع إنستراكتابلز (Instructables.com) التعاوني المخصص لبناء المشاريع، وموقع آي بي إف إس (ipfs.io) وهو شبكة لمشاركة الملفات، كما تضمن العديد من المنصات المخصصة لإنشاء مواقع الويب مثل جوجل سايتس (sites.google.com).

احتلت فئة الأخبار ووسائل الإعلام المرتبة الثالثة، وقد تصدرت مواقع المنافذ الإخبارية الكبرى، مثل "نيويورك تايمز" و"لوس أنجلوس تايمز" و"ذا غارديان" هذه الفئة. غير أن القائمة تضمنت أيضاً العديد من مواقع الأخبار التي تحتل مرتبة منخفضة في مقاييس الجدارة بالثقة، منها موقع بريت بارت (breitbart.com) وهو مصدر للأخبار والآراء اليمينية المتطرفة، وقد جاء في المرتبة الـ 159، وموقع في دير (vdare.com) وهو موقع مناهض للهجرة ومرتبط بأفكار تفوق البيض، واحتل المرتبة الـ 993 في القائمة.

ثمة ملاحظات أخرى مثيرة للاهتمام يبرزها تحقيق "واشنطن بوست":

ضمت القائمة مواقع مثل بوك دوت أورغ (b-ok.org) الذي جاء في المرتبة الـ 190، وهو سوق سيئة السمعة للكتب الإلكترونية المقرصنة وقد صادرته وزارة العدل الأميركية، كما أن مجموعة البيانات احتوت على ما لا يقل عن 27 موقعاً آخر حددتها الحكومة الأميركية على أنها أسواق للقرصنة والتزوير.
جاء موقع "واشنطن بوست" نفسه في المرتبة الـ 11 بـ 55 مليون رمز، بنسبة 0.04% من إجمالي الرموز المميزة في مجموعة البيانات، وجاء موقع إم آي تي تكنولوجي ريفيو (النسخة الإنجليزية) في المرتبة الـ 592 بـ 7.5 مليون رمز، بنسبة 0.005% من إجمالي الرموز.
هناك غياب شبه تام لمواقع التواصل الاجتماعي، مثل فيسبوك وتويتر، عن التواجد في مقدمة القائمة.
يذكر التقرير أن هذه المنصات تحظر عملية السحب (Scraping)، أي استخراج البيانات من مواقع الويب، ما يعني أن معظم مجموعات البيانات المستخدمة لتدريب الذكاء الاصطناعي لا يمكنها الوصول إلى هذه المنصات.
ظهر بعض المواقع في مقدمة القائمة بطريقة تبدو عشوائية، مثل موقع واو هيد (wowhead.com) وهو منتدى للاعبي لعبة وورلد أوف ووركرافت (World of Warcraft)، وقد جاء في المرتبة الـ 181 (تذكر أننا نتحدث هنا عن قائمة تضم 10 ملايين موقع)، كما ظهر ما لا يقل عن 10 مواقع تبيع حاويات القمامة، بما في ذلك موقع دامب سترويد (dumpsteroid.com) الذي جاء في المرتبة الـ 183، والذي لم يعد من الممكن الوصول إليه.
شكّلت المواقع المخصصة للمجتمع نحو 5% من المواقع المصنّفة، وقد سيطرت المواقع الدينية على هذه الفئة. ومن بين أول 20 موقعاً دينياً في القائمة، كان هناك 14 موقعاً مسيحياً، وموقعان يهوديان، وموقع إسلامي واحد، وموقع لجميع الأديان.
يشير التحليل إلى أن هناك تحديات قانونية إضافية ستواجه مجموعات البيانات، حيث يظهر رمز حقوق الطبع والنشر © -الذي يدل على أن العمل مسجل كملكية فكرية- أكثر من 200 مليون مرة في مجموعة البيانات.

على الرغم من أن "سي فور" هي مجموعة بيانات ضخمة، فإن النماذج اللغوية الكبيرة كثيراً ما تستخدم مجموعات بيانات أكبر حجماً، كما يذكر تحقيق الصحيفة. على سبيل المثال، بدأت بيانات التدريب الخاصة بنموذج "جي بي تي-3"، الذي تم إصداره في عام 2020، بما يصل إلى 40 ضعف كمية البيانات التي تم جمعها من الويب في مجموعة "سي فور".

الجدير بالذكر أيضاً أن شركة "أوبن أيه آي" لا تكشف عن مجموعات البيانات التي تستخدمها لتدريب النماذج التي تدعم بوت الدردشة "تشات جي بي تي".