لم يأتِ من العدم: كيف حقق تشات جي بي تي انتشاره الواسع؟

وصل نموذج تشات جي بي تي (ChatGPT) حالياً إلى ذروة تطوره. أصدرت شركة أوبن أيه آي (OpenAI)، ويقع مقرها في مدينة سان فرانسيسكو الأميركية، هذا النموذج في شهر نوفمبر/ كانون الأول 2022 على شكل تطبيق على الإنترنت، وانتشر على نطاق واسع بين ليلة وضحاها نوعاً ما.

وفقاً لبعض التقديرات، يعتبر تشات جي بي تي خدمة الإنترنت الأسرع نمواً على الإطلاق؛ إذ وصل عدد مستخدميه إلى 100 مليون مستخدم في شهر يناير/ كانون الثاني من عام 2023، أي بعد شهرين فقط من إطلاقه. تعمل شركة أوبن أيه آي حالياً على دمج هذا النموذج في برامج مايكروسوفت أوفيس (Microsoft Office) ومحرك البحث بينغ (Bing) نتيجة صفقة عقدتها مع شركة مايكروسوفت (Microsoft) بقيمة 10 مليارات دولار، ودفعت هذه التطورات في عالم البحث شركة جوجل (Google) لتسريع عملية إطلاق بوت الدردشة الخاص بها، والذي يحمل اسم لامدا (LaMDA) بعد عودة خصمها القديم إلى المنافسة. أصبح نموذج تشات جي بي تي مشهوراً لدرجة أن أفراد عائلتي يتحدثون عنه بكثرة في مجموعة الدردشة الخاصة بالعائلة.

لكن هذا النجاح الباهر لشركة أوبن أيه آي لم يأتِ من العدم، إذ يعتبر نموذج تشات جي بي تي الإصدار الأكثر تنقيحاً حتى الآن في سلسلة من النماذج اللغوية الكبيرة مستمرة منذ أعوام. وسنستعرض في هذا المقال السياق الذي أوصلنا إلى المرحلة الحالية.

الثمانينيات والتسعينيات من القرن العشرين: الشبكات العصبونية التكرارية

تشات جي بي تي هو إصدار جديد من نموذج جي بي تي-3، وهو نموذج لغوي كبير طوّرته أيضاً شركة أوبن أيه آي. النماذج اللغوية هي أحد أشكال الشبكات العصبونية التي يتم تدريبها باستخدام كميات كبيرة للغاية من النصوص. والشبكات العصبونية هي برمجيات يعتمد تصميمها على الطريقة التي ترسل وفقها الخلايا العصبية في أدمغة الحيوانات الإشارات فيما بينها.

بما أن النصوص تتألف من سلسلة من الأحرف والكلمات المتفاوتة الأطوال، تتطلب النماذج اللغوية استخدام نوع من الشبكات العصبونية التي تستطيع فهم هذا النوع من البيانات. تستطيع الشبكات العصبونية التكرارية، والتي اخترعت في ثمانينيات القرن الماضي، التعامل مع سلاسل الكلمات، ولكن عملية تدريبها تستغرق وقتاً طويلاً كما يمكن أن تنسى الكلمات السابقة في السلاسل.

في عام 1997، حل عالما الحاسوب سيب هوخرايتر (Sepp Hochreiter) ويورغن شميدهوبر (Jürgen Schmidhuber) هذه المشكلة حين اخترعا شبكات الذاكرة قصيرة الأمد الطويلة، وهي شبكات عصبية تكرارية تحتوي على مكونات خاصة تتيح تذكّر البيانات السابقة في سلاسل المدخلات لفترة أطول. تستطيع هذه الشبكات التعامل مع سلاسل النصوص التي تتألف من عدة مئات من الكلمات، ولكن مهاراتها اللغوية كانت محدودة.

عام 2017: المتحولات

حدث الإنجاز الثوري الذي تعتمد عليه الأجيال الحالية من النماذج اللغوية الكبيرة عندما اخترع فريق من الباحثين في شركة جوجل المتحولات، وهي نوع من الشبكات العصبونية التي تستطيع تحديد موقع ظهور الكلمات والعبارات في السلاسل. يعتمد معنى الكلمات عادة على معاني الكلمات الأخرى التي تأتي قبلها أو بعدها. ومن خلال تعقّب هذه المعلومات المعتمدة على السياق، تستطيع المتحولات التعامل مع السلاسل الأطول من النصوص وتحديد معاني الكلمات بدقة أكبر. على سبيل المثال، تمتلك كلمة "هوت دوغ" معنيين مختلفين تماماً في الجملتين "يجب منح الكلاب التي تشعر بالحر الكثير من المياه" و"يجب تناول الهوت دوغ مع الخردل".

عاما 2018 و2019: نموذجا جي بي تي وجي بي تي-2

كان الفرق الزمني بين أول نموذجين لغويين كبيرين تطوّرهما شركة أوبن أيه آي بضعة أشهر فقط. تهدف هذه الشركة إلى تطوير أدوات الذكاء الاصطناعي المتعددة المهارات وذات الأغراض العامة، وتعتقد أن تطوير النماذج اللغوية الكبيرة هو الطريق لتحقيق هذا الهدف. سيطر نموذج جي بي تي (GPT)، والذي اسمه الكامل هو المتحول التوليدي مسبق التدريب، على الساحة، متفوقاً على أفضل برامج معالجة اللغة الطبيعية في ذلك الوقت.

اقرأ أيضاً: كيف غيّر «تشات جي بي تي» نظرة العالم إلى الذكاء الاصطناعي؟

مزَج نموذج جي بي تي بين المتحولات والتعلم غير الخاضع للإشراف، وهي طريقة تستخدم لتدريب نماذج التعلم الآلي باستخدام البيانات (كميات كبيرة من النصوص في هذه الحالة) غير المفسرة مسبقاً. يمنح ذلك البرنامج القدرة على ملاحظة الأنماط في البيانات بنفسه دون الحاجة لتوجيهه. اعتمدت العديد من الإنجازات الناجحة السابقة في مجال التعلم الآلي على التعلم غير الخاضع للإشراف والبيانات المفسرة. ولكن وسم البيانات وتفسيرها يدوياً هو عملية بطيئة، وبالتالي فهي تحد من حجم مجموعات البيانات المتوفرة للتدريب.

نموذج جي بي تي-2 (GPT-2، الجيل الثاني من المحولات التوليدية مسبقة التدريب) هو الذي أحدث الضجة الأكبر. ادّعى الخبراء في شركة أوبن أيه آي أنهم قلقون من أن يتم استخدام نموذج جي بي تي-2 "لتوليد النصوص الخادعة أو المتحيزة أو المسيئة"، لدرجة أنهم قرروا عدم إصدار النموذج الكامل. ولكن ذلك تغير مع الزمن.

عام 2020: نموذج جي بي تي-3

كان نموذج جي بي تي-2 مثيراً للإعجاب، ولكن الإصدار الذي تلاه، وهو جي بي تي-3 (GPT-3) (الجيل الثالث من المتحولات التوليدية مسبقة التدريب) كان مذهلاً. مثّلت قدرة هذا النموذج على توليد النصوص الشبيهة بتلك التي يؤلفها البشر خطوة كبيرة للأمام في هذا المجال. يستطيع هذا النموذج الإجابة عن الأسئلة وتلخيص المستندات وتوليد القصص بأساليب مختلفة وترجمة النصوص من وإلى اللغة الإنجليزية والفرنسية والإسبانية واليابانية وغيرها. إن قدرة هذا النموذج على المحاكاة هائلة.

تتمثل إحدى أهم فوائد نموذج جي بي تي-3 في أنه ضخّم التكنولوجيات الموجودة مسبقاً بدلاً من أن يسهم في ابتكار تكنولوجيات جديدة. يحتوي هذا النموذج على 175 مليار متغير (والمتغيرات هي القيم في الشبكات التي يتم تعديلها في أثناء التدريب)، بينما احتوى نموذج جي بي تي-2 على 1.5 مليار متغير فقط. بالإضافة إلى ذلك، تم تدريب هذا النموذج باستخدام كمية أكبر بكثير من البيانات.

لكن التدريب باستخدام النصوص المنشورة على الإنترنت ولّد مشكلات جديدة. تشبّع نموذج جي بي تي-3 بالكثير من المعلومات المضللة والمضرة الموجودة على الإنترنت، وأعاد توليدها عند الطلب. اعترفت شركة أوبن أيه آي بأن "النماذج المدربة باستخدام الإنترنت تعاني التحيزات المنتشرة في الإنترنت".

شهر ديسمبر/ كانون الأول من عام 2020: النصوص المسيئة والمشكلات الأخرى

بينما عانت شركة أوبن أيه آي من تحيّزات نموذج جي بي تي-3، عملت الجهات الرسمية الرفيعة المستوى على محاسبة قطاع التكنولوجيا على عجزه عن الحدّ من نزعة أدوات الذكاء الاصطناعي لتوليد المخرجات المسيئة. لا يخفى على أحد أن النماذج اللغوية الكبيرة يمكن أن تنتج نصوصاً خاطئة وحتى محرضة على الكراهية. ولكن الباحثين لاحظوا أن غالبية شركات التكنولوجيا لا تعتزم العمل على حل هذه المشكلة. عندما شاركت المديرة المشاركة لفريق أخلاقيات الذكاء الاصطناعي في شركة جوجل، تيمنيت غيبرو (Timnit Gebru)، في تأليف ورقة بحثية تسلط الضوء على الأضرار المحتملة المرتبطة باستخدام النماذج اللغوية الكبيرة (والتي تتضمن تكاليف الحوسبة المرتفعة)، لم يكن كبار المدراء في الشركة راضين عما ورد في البحث. وفي شهر ديسمبر/ كانون الأول 2020، طُردت غيبرو من وظيفتها.

يناير/ كانون الثاني من عام 2022: نموذج إنستركت جي بي تي

حاولت شركة أوبن أيه آي التقليل من كمية المعلومات المضللة والنصوص المسيئة التي يولدها نموذج جي بي تي-3 باستخدام تقنية التعلم المعزز لتدريب نسخة من النموذج باستخدام تفضيلات المختبرين من البشر. نتج عن هذا العمل نموذج إنستركت جي بي تي(InstructGPT)، وهو نموذج أكثر كفاءة في اتباع تعليمات المستخدمين (وهي ميزة تحمل اسم التخطيط البرمجي في لغة العاملين في مجال الذكاء الاصطناعي)، كما كانت نسبة النصوص المسيئة فيه وكمية المعلومات المضللة والأخطاء أقل عموماً. باختصار، لم يكن هذا النموذج مسيئاً مثل سابقه، إلا إذا طُلب منه ذلك.

الفترة بين شهري مايو/ أيار ويوليو/ تموز من عام 2022: نموذجا أو بي تي وبلوم

يتمثل أحد الانتقادات الشائعة للنماذج اللغوية الكبيرة في أن تكلفة تدريبها تجعل تصميمها صعباً للغاية، لكن ليس بالنسبة لأغنى المختبرات في العالم. يثير ذلك المخاوف من عمل الفرق الصغيرة في الشركات سراً على تصميم أدوات الذكاء الاصطناعي ذات الكفاءة العالية من دون خضوعها إلى التدقيق وبعيداً عن مشاركة المجتمع البحثي الأوسع. واستجابة لذلك، طوّرت مجموعة من المشاريع التعاونية بعض النماذج اللغوية الكبيرة وأصدرتها مجاناً ليتمكن أي باحث يرغب في دراسة هذه التكنولوجيا وتحسينها من استخدامها، وصممت شركة ميتا نموذج أو بي تي (OPT) (نموذج تدريب الأداء الأمثل)، وهو بمثابة إعادة إنشاء لنموذج جي بي تي-3، وأطلقته مجاناً. كما قادت شركة هاغينغ فيس (Hugging Face) تحالفاً يضم نحو ألف باحث متطوع لتصميم نموذج بلوم (BLOOM) وإطلاقه.

شهر ديسمبر/ كانون الأول من عام 2022: نموذج تشات جي بي تي

فوجئ المسؤولون في شركة أوبن أيه آي بنجاح نموذج تشات جي بي تي. في العرض التوضيحي الأول الذي أجرته هذه الشركة، والذي قدمته لي في اليوم السابق لإطلاق نموذج تشات جي بي تي على الإنترنت. تم طرح هذا النموذج كتحديث إضافي لنموذج إنستركت جي بي تي وتم تدريب تشات جي بي تي بطريقة تدريبه نفسها، أي بتطبيق تقنية التعلم المعزز وباستخدام ملاحظات المستخدمين الذين قيّموا أداءه ووصفوه بأنه مُحاور سلس ودقيق وغير مسيئ.

في الواقع، ما فعلته شركة أوبن أيه آي هو أنها دربت نموذج جي بي تي-3 على إتقان المحادثة ودعت المستخدمين لتجربته. ومنذ ذلك الحين، يستخدمه الملايين في العالم.