جي بي تي 3: هل اقتربت الحواسيب من اجتياز اختبار تورنغ؟

في شهر يوليو الماضي، أعلن أوبن إيه آي، وهو مختبر بحثي أسسه إيلون ماسك لدراسة الذكاء الاصطناعي، عن ظهور أحدث إصدار من نظام ذكاء اصطناعي كان المختبر يعمل عليه لمحاكاة اللغة البشرية، الذي يحمل اسم "جي بي تي 3".

في الأسابيع التي تلت هذا الإعلان، تسنى للكثيرين الفرصة لتجربة هذا البرنامج كيفما يشاؤون. وإذا كنت من متابعي أخبار الذكاء الاصطناعي، فمن المرجح أنك رأيت بعض العناوين الإخبارية التي اعتبرت أن هذا البرنامج يمثل خطوة ضخمة إلى الأمام، بل حتى خطوة مخيفة إلى الأمام.

أتيحت للمطورين فرصة التعامل مع جي بي تي 3 عن طريق اختبار أولي خاص، فقاموا باستخدامه لكتابة القصائد، والمقالات، ومشاهد الرسوم المتحركة، والبرامج الحاسوبية، وتأليف المقاطع الموسيقية للجيتار، وتقديم النصائح الطبية، وبناء تصورات جديدة لألعاب الفيديو، مع نتائج مذهلة في بعض الأحيان. وقد قام آرام سابيتي، وهو رائد أعمال تكنولوجي، باستخدام البرنامج لكتابة نص تمثيلي بأسلوب رايموند تشاندلر حول هاري بوتر، وغرد معلقاً عن النتيجة: "إن البرنامج بارع في عمله إلى درجة تبعث على الصدمة". وبالفعل، فإن البرنامج اللغوي جي بي تي 3 (وهو اختصار لعبارة "المحول التوليدي مسبق التدريب 3") المبني على الذكاء الاصطناعي مُتاح حالياً بنسخته التجريبية لمجموعة مختارة من المُستخدمين الاختباريين، الذين قاموا بنشر الكثير من مقاطع الفيديو ولقطات الشاشة التي تبين القدرات المذهلة لهذا البرنامج، التي أثارت حماسة شديدة في الأوساط التكنولوجية.

يستطيع البرنامج توليد مختلف أنواع النصوص، بدءاً بالتغريدات الصغيرة وتعليمات الاستخدام، وصولاً إلى القصائد والقصص الصغيرة، وانتهاء بأغاني الراب بأسلوب المغني جاي زي، وحتى الحوارات روحانية الطابع. وبالنظر إلى الانطباعات الأولية، يبدو أن جي بي تي 3 قادر على إنتاج كل هذا بطابع متقن للغاية، لدرجة أن النصوص لا يمكن تمييزها عن الإنتاج البشري العادي، بل لا يمكن تمييزها حتى عن إنتاج المؤلف المقصود نفسه. ولكن هذا ليس كل شيء؛ حيث إن هذا الذكاء الاصطناعي يستطيع أن يقوم بالترجمة، والإجابة عن الأسئلة في مختلف أنواع الاختصاصات من البيولوجيا إلى التاريخ، وحل المسائل الحسابية البسيطة، بل يستطيع حتى كتابة البرامج الحاسوبية بنفسه إذا أعطيته النتيجة المطلوبة (هنا يمكنك رؤية بعض الأمثلة على هذه التطبيقات). وعلى سبيل المثال، فإن الأمر "قم بإنشاء زر بلون شعر دونالد ترامب" يجعل البرنامج ينشئ زراً أصفر اللون يمكن استخدامه في موقع ويب.

This is mind blowing.

With GPT-3, I built a layout generator where you just describe any layout you want, and it generates the JSX code for you.

W H A T pic.twitter.com/w8JkrZO4lk

— Sharif Shameem (@sharifshameem) July 13, 2020

تفوق مترافق مع الحذر

يعود الفضل في تصميم جي بي تي 3 إلى شركة التكنولوجيا الأميركية أوبن إيه آي، وهي أقرب ما يكون إلى فريق النجوم بين مستثمري التكنولوجيا في كاليفورنيا، وتتضمن قائمة الممولين لهذه الشركة مليارديرات التكنولوجيا كل من إيلون ماسك (شركة تسلا)، وبيتر ثييل (خدمة باي بال)، وريد هوفمان (شبكة لينكدإن). إضافة إلى ذلك، فقد قدمت شركة مايكروسوفت العملاقة مليار دولار إلى أوبن إيه آي في العام الماضي. تم تأسيس أوبن إيه آي في 2015 كمشروع لاربحي، ولكن منذ 2019 ظهر فرع ربحي في هذه المنظمة من أجل تسويق التكنولوجيات التي تبتكرها.

تعبر هذه الشركة بوضوح عن مخاوفها إزاء الخطر المحدق بنا بسبب الذكاء الاصطناعي، ومن ناحية أخرى، تصمم بنفسها أنظمة ذكاء اصطناعي أكثر تطوراً. وعلى ما يبدو، فإنها تحاول أن تهزم خصمها من خلال معرفة أسلحته جيداً؛ ولهذا قدمت الشركة مجموعة من التحذيرات عند إطلاق النموذج السابق "جي بي تي 2" في فبراير من العام الماضي، وقد قالت إنها كانت تنوي نشر الرماز البرمجي لمولد النصوص، غير أنها تراجعت عن ذلك؛ لأنها وجدت أن الاحتمالات كانت مقلقة للغاية، وأن خطر إساءة الاستخدام كان كبيراً للغاية. وقد فوجئ المراقبون بأن إطلاق جي بي تي 3 -الأكثر تطوراً بشكل واضح- ترافق بلهجة أكثر هدوءاً، ووفق أحد مؤسسي الشركة سام ألتمان، فإن الضجة الإعلامية تحمل الكثير من المبالغة، وعلى الرغم من أن البرنامج الجديد رائع من دون شك، فإنه ما زال يحمل عدداً من نقاط الضعف، ويضيف قائلاً: "ما زال أمامنا الكثير حتى نكتشفه".

ولكن لا شك في أن التكنولوجيا الأساسية التي تعتمد عليها هذه البرامج ليست بالابتكار الجديد؛ حيث إن جي بي تي 3 نموذج لغوي إحصائي لا يقوم -من ناحية المبدأ- سوى بحساب احتمال ورود كلمة بعد كلمة أخرى. لقد كانت مولدات النصوص تعمل وفق هذا المبدأ منذ زمن طويل، ولكن في حين أن النماذج الأقدم تستطيع استخدام بضع كلمات وحسب لتوقع الكلمة التالية، فإن جي بي تي 3 يستخدم في توقعاته عدة مقاطع كاملة؛ حيث يأخذ بعين الاعتبار ما يصل إلى 2,048 نقطة معلومات (tokens)، وقد تكون هذه النقاط كلمات عادية أو أجزاء من توقعات البرنامج.

يقوم كل هذا على أساس التعلم العميق؛ حيث تتعلم الآلة اعتماداً على شبكات عصبونية اصطناعية متعددة الطبقات، أو "عميقة". هذا يعني أن النموذج يتفحص -وبشكل متكرر- بيانات نصية تتضمن بعض الكلمات أو الجمل المحذوفة عشوائياً، ومن ثم يتعين على الآلة أن تملأ هذه الفراغات مجدداً. وهكذا يتعلم النظام كيفية تمييز السياقات المختلفة، ويقوم بالتدريج بتشكيل نظام إحداثيات متعدد الأبعاد حيث يتم تجميع المصطلحات المشابهة معاً.

قدرات أثارت ضجة إعلامية

من ناحية، فإن هذا النظام مثير للإعجاب إلى حد كبير؛ بسبب الأرقام التي حققها والتي نشرتها أوبن إيه آي، والتي أدت إلى رفع جي بي تي 3 إلى رتبة أضخم وأعقد أنظمة الذكاء الاصطناعي اللغوي حتى الآن، حيث تتألف الشبكة العصبونية من 175 مليار معامل، أي أضخم بمئة مرة من جي بي تي 2، الذي أطلقته الشركة منذ سنة واحدة فحسب. إضافة إلى ذلك، فإن الأداة الجديدة تحتاج إلى قراءة كميات هائلة من النصوص، فقد استخدم المطورون أكثر من 570 جيجا بايت من النصوص في عملية التدريب، وهو ما يقارب مليار كلمة. وكانت مجموعة البيانات تتضمن الأرشيف النصي لمنظمة كومون كرول التي كانت تجمع النصوص من الإنترنت منذ 2011، بما في ذلك حوارات المنتديات، ومنشورات المدونات، والافتتاحيات. إضافة إلى ذلك، تم تلقيم جي بي تي 3 بموسوعة ويكيبيديا باللغة الإنجليزية، وعدة قواعد بيانات من الأعمال الأدبية.

ومن ناحية أخرى، يعتمد المطورون في تدريب نموذجهم اللغوي على نقلة نوعية في هذا المجال؛ حيث إن معظم المنافسين -مثل جوجل التي أطلقت المولد النصي بيرت BERT- كانوا يعتمدون حتى الآن على ما يسمى بالضبط الدقيق (fine-tuning). فبعد عملية التدريب الأساسية، يجب أن تُستخدم مجموعات بيانات محددة لتكييف الذكاء الاصطناعي مع متطلبات محددة، مثل الترجمة. أما في حالة جي بي تي 3، فقد أُلغيت هذه العملية التي تستغرق عادة وقتاً طويلاً للغاية؛ حيث يكفي أن يُعطى النموذج يدوياً بضعة أمثلة بحيث يفهم السياق والمهمة. تمثل هذه القدرة، على وجه الخصوص، محور الضجة الإعلامية التي تحيط بجي بي تي 3، حيث توجد الكثير من مقاطع الفيديو القصيرة التي يظهر فيها هذا البرنامج وكأنه يفهم ما يريده المستخدم بعد بضعة أمثلة، ومن ثم ينفذ العمل المطلوب منه بطريقة تكاد تكون مبتكرة.

Just taught GPT-3 how to turn legalese into simple plain English. All I gave it were 2 examples 🤯 Might build a term sheet and investment document interpreter out of this 🤓 pic.twitter.com/BDdwCuFce5

— Michael (@michaeltefula) July 21, 2020

وعلى سبيل المثال، تستطيع الآلة أن تلخص ببضع جمل واضحة مغزى أي مقطع قانوني مقسم إلى عدة بنود. وعادة ما توحي هذه الأمثلة بأن النموذج يستطيع أن يستنبط -بل حتى يفهم- معنى اللغة، وهو ما يمثل بدوره دليلاً على الذكاء كما يُعرّفه البشر. ولكن كيف يستطيع جي بي تي 3 فعلياً أن يحقق هذه النتائج؟ وهل يمكن لنظام ذكاء اصطناعي لغوي أن يكون على نفس مستوى الدماغ البشري من تعدد المهارات ولكن بسرعة أعلى بكثير؟

عادة ما يتسرّع الكثير من الأشخاص في نسب الصفات البشرية إلى أنظمة الذكاء الاصطناعي، وقد يعبر الخبراء عن وجهة نظر مماثلة، وإن بدرجة أقل من الحماس. وعلى الرغم من أن قدرات جي بي تي 3 مثيرة للإعجاب من دون شك، فإنها "ليست بالأمر المفاجئ قياساً بحجم النموذج"، كما تقول سينا زاريب، البروفسور في مجال التعلم الآلي وتكنولوجيا اللغة في جامعة جينا. ويعبر باحث الذكاء الاصطناعي من جامعة دارمشتات التكنولوجية، كريستيان كيرستينج، عن فكرة مماثلة بقوله: "يمكننا القول إن هذا الإنجاز متوقع. وفي الواقع، فإنه يثبت إمكانية تحقيق الكثير من الأشياء عند الاعتماد على كميات ضخمة من البيانات".

غير أن النتائج لم تكن جميعها كافية لإقناع الباحثين، كما تقول زاريب: "إذا دقق أي شخص في هذه القصص القصيرة المبتكرة، على سبيل المثال، سيلاحظ أنها لا تحمل أي مغزى حقيقي في أغلب الأحيان". يتوصل النموذج أيضاً -وبشكل متكرر- إلى حلول سخيفة وخاطئة في مهام لا تمثل أية صعوبات بالنسبة للبشر. كما يعاني جي بي تي 3 عند محاولة الإجابة عن الأسئلة السخيفة، مثل: "هل ستذوب الجبنة إذا وضعتها في الثلاجة؟"، وينطبق نفس الشيء على الأسئلة المتعلقة باستيعاب المحتوى، وعلى سبيل المثال، ضرورة إتباع جملة ما بجملة أخرى بالضرورة.

وفقاً لزاريب، فإن انعدام الفهم الحقيقي عند الذكاء الاصطناعي مسألة لا شك فيها: "في المحصلة، فإن النماذج الإحصائية مبنية على الدوام على حسابات احتمالية بحتة، ولهذا فإن الذكاء الاصطناعي لا يمتلك أية وسيلة لفهم أو تفسير ما تعلمه"؛ وبالتالي إذا بدا أن جي بي تي 3 أصبح بارعاً على حين غرة في لغات البرمجة، فهذا يعود ببساطة إلى أنه رأى مجموعات من التعليمات البرمجية أثناء تدريبه، وتمكن من حفظ أنماطها.

أسئلة أساسية

إذن، يبدو أننا في مواجهة سؤال معرفي أساسي: كيف يمكن أن نتعلم فعلياً كيفية التعرف على المعنى؟ هل يمكن أن نفهم العالم فقط وفق مقاربة النماذج مثل جي بي تي 3، أي عن طريق قراءة الكتب التي تتحدث عنه؟ أم أن هناك قدراً ضرورياً من المعرفة حول العالم لا يمكن أن نحصل عليه إلا عن طريق التواصل مع الآخرين والتفاعل مع البيئة؟ بالنسبة للباحثَيْن في مجال اللسانيات الحاسوبية، إيميلي بيندر وألكسندر كولر، فإن الإجابة الثانية هي الإجابة الصحيحة، وذلك كما أوردا في بحث ذائع الصيت. ووفقاً للباحثَيْن، يتم تدريب النماذج اللغوية مثل جي بي تي 3 فقط على تخزين الأنماط الأكثر تكراراً في النص، ولذلك فإن هذه النماذج عاجزة عن استيعاب المعنى الفعلي؛ حيث إن هذا لا يتطلب فقط تمييز التشكيلات اللغوية، بل أيضاً فهم ترابطها مع نوايا التواصل لدى الطرف الذي يصدرها.

بيّن الباحثان مقصدهما باستخدام مثال اكتساب اللغة لدى الأطفال، الذي يتم -وفقاً للاعتقاد الخاطئ الشائع- عن طريق الاستماع إلى اللغة وحسب، على عكس ما تقوله الأبحاث. فإذا شاهد طفل يتكلم الإنجليزية برامج تلفازية باللغة الصينية لعدة ساعات يومياً، فإنه يبقى عاجزاً عن تعلم اللغة الصينية، وهكذا توصل الباحثان إلى الاستنتاج التالي: "إذا فشل الأطفال في تحقيق الفهم اعتماداً على التشكيلات اللغوية فقط، فلا يمكن أن نتوقع من الآلات أن تنجح في هذا الأمر".

لفت مطورو أوبن إيه آي أنفسهم إلى عدة نقاط ضعف أخرى في بحثهم؛ فجي بي تي 3 معرض للوقوع في حالة التكرار وإضاعة الأنماط في حالة النصوص الطويلة، حيث إن 2,048 نقطة معلومات عدد كبير للغاية، ولكنه لا يكفي لرواية كاملة. إضافة إلى ذلك، يعاني هذا النظام من مشكلة الميول التمييزية على أساس العرق والجنس، وهي مشكلة معروفة وقديمة، وتُعرف بالتحيز وفق المصطلحات التكنولوجية المتفق عليها. لا شك في أن التحيز موجود في كل مجموعات البيانات على أية حال، ولكن إذا كانت مجموعة البيانات التدريبية تتضمن أيضاً منتديات موقع ريديت وأجزاء أخرى من الإنترنت، كما في حالة جي بي تي 3، فإن التحيز سيظهر في النتائج لا محالة، وقد لوحظت بعض الدلالات على التحيز العرقي والجنسي في النتائج، وتقول أوبن إيه آي إنها تصدت لهذه المشكلة بإضافة فلتر جديد. يمكن الاطلاع هنا على عدد متنوع من الأمثلة التي توضح مجمل نقاط الضعف التي ذكرناها.

خلاصة

أخيراً وليس آخراً، يتطلب تدريب شبكة عصبونية تتضمن 175 مليار معامل استثمار موارد ضخمة. فمن الناحية البيئية، تؤدي جولات الاختبارات المتواصلة على الحواسيب عالية الاستطاعة إلى إطلاق كميات ضخمة من ثنائي أكسيد الكربون. أما من الناحية الاقتصادية، فقد كلّف التدريب حوالي 5 مليون دولار، وهي تكلفة ليست بالاقتصادية على الإطلاق. ولهذا، فإن المطورين قالوا إن الشعار "أكبر وأقوى" قد يصل إلى أقصى حدوده ببطء مع جي بي تي 3.

بطبيعة الحال، لا يعني هذا تقليلاً من قدر إمكانات جي بي تي 3 المذهلة، ويعود هذا بشكل أساسي إلى أن النسخة الحالية ما زالت في المرحلة التجريبية، ويجب تحسينها على الدوام. ولكن من ناحية أخرى، يجب أن نعترف أيضاً أن الأبحاث المتعلقة بمولدات النصوص التي تعتمد على الذكاء الاصطناعي ما زالت في بداياتها؛ وبالنسبة للباحثين، يوجد عائق آخر يعترض هذا الاتجاه، وهو أن النماذج اللغوية الإحصائية وشبكاتها العصبونية ما زالت أقرب إلى صندوق أسود لا نعرف حقاً ما يحدث داخله. وفي بعض الأحيان، يتوصل النظام إلى نتائج يعجز حتى المطورون عن تفسيرها.

ولهذا ليس من السهل على الباحثين تقييم العمل وفقاً للمعايير العلمية، فهم في حاجة إلى أساليب أفضل تتيح لهم -وبشكل منهجي- تدقيق طبيعة المعلومات التي اكتسبتها عمليات الذكاء الاصطناعي وسبب اكتسابها لها. وربما يجدر بنا التوقف عند وجهة النظر التي ترى حالياً، أن كل ما نقوم به هو تغذية الشبكات العصبونية بكميات هائلة من البيانات، على أمل العثور على الأجوبة المطلوبة في مكان ما من النتائج. وهذا يعني أنه لا يزال أمام الحواسيب الكثير من العمل قبل أن تتمكن من إدراك الحدود المنطقية للأسئلة والمحادثات التي تخوضها، وبالتالي لا يزال أمامها وقت طويل قبل أن تتمكن من اجتياز اختبار تورنغ بالشكل الذي لا يقبل الجدل.