كيف تسمم النصوص التي يولدها الذكاء الاصطناعي الإنترنت؟

مصدر الصورة: ستيفاني أرنيت/ إم آي تي تي آر

استمع الى المقالة الآن هذه الخدمة تجريبية

لقد كانت سنة حافلة بالنسبة للذكاء الاصطناعي. وإذا كنت قد أمضيت الكثير من الوقت على الإنترنت، فمن المرجح أنك رأيت صوراً قامت أنظمة الذكاء الاصطناعي بتوليدها، مثل دال-إي 2 (DALL-E 2) أو ستيبل ديفيوجن (Stable Diffusion)، أو النكات وغيرها من النصوص التي ألفها تشات جي بي تي (ChatGPT)، وهو أحدث إصدار من النموذج اللغوي الكبير جي بي تي 3 (GPT-3) من أوبن أيه آي (OpenAI).

إنتاجات مخادعة

في بعض الأحيان، تكون إنتاجات أنظمة الذكاء الاصطناعي من صور وكتابات واضحة للعيان. ولكن إنتاجات هذه النماذج أصبحت، وعلى نحو متزايد، قادرة على خداعنا بسهولة، ودفعنا إلى الاعتقاد بأنها من إنتاج البشر. وقد أثبتت النماذج اللغوية الكبيرة على نحو خاص أنها بارعة في تأليف الهراء، فهي قادرة على تأليف نص يبدو صحيحاً، ولكنه في الواقع مليء بالمعلومات الخاطئة.

قد لا يبدو هذا مهماً إذا كان الموضوع مجرد مسألة تسلية لا أكثر، ولكنه قد يؤدي إلى عواقب وخيمة عند استخدام نماذج الذكاء الاصطناعي لتقديم النصائح الصحية أو غيرها من المعلومات المهمة دون إشراف بشري. كما يمكن أن تزيد أنظمة الذكاء الاصطناعي من سهولة إنتاج المعلومات الزائفة بكميات كبيرة وسهولة غير مسبوقة، إضافة إلى الإساءات والرسائل المزعجة، ما يؤدي إلى تشويش المعلومات التي نحصل عليها، بل وحتى تشويش صورتنا عن الواقع نفسه. ويمكن أن تكون مدعاة للقلق على نحو بالغ في فترة الانتخابات، على سبيل المثال.

ويطرح انتشار النماذج اللغوية الكبيرة التي يمكن الوصول إليها بسهولة سؤالاً مهماً: كيف سنميز إنتاج البشر من إنتاج الآلات في المواد التي نقرأها على الإنترنت؟ لقد نشرتُ مقالاً حول الأدوات التي يمكننا اللجوء إليها حالياً لكشف النصوص التي ولدها الذكاء الاصطناعي. وأقدم لكم هذا التحذير المسبق: إن مجموعة أدوات الكشف الحالية عاجزة للغاية أمام تشات جي بي تي.

نماذج ماهرة وأدوات كشف عاجزة

ولكن هناك المزيد من الآثار بعيدة الأمد. فمن المحتمل أننا نشهد -وفي الزمن الحقيقي- ولادة موجة متسارعة ومتزايدة الضخامة من الهراء والنصوص الفارغة.

فقد تم تدريب النماذج اللغوية الكبيرة على مجموعات بيانات تم الحصول عليها من الإنترنت، بما في ذلك جميع الأشياء المسيئة والسخيفة والمزيفة والخبيثة التي كتبها البشر على الإنترنت. وبالتالي، فإن النماذج النهائية تعيد إطلاق هذه المعلومات المزيفة كحقائق، وينتشر إنتاجها في كل مكان على الإنترنت. وعندما تقوم شركات التكنولوجيا بمسح الإنترنت ثانية للحصول على النصوص، ستجمع النصوص التي كتبها الذكاء الاصطناعي لاستخدامها في تدريب نماذج لغوية أكثر ضخامة وأعلى قدرة على الإقناع، والتي سيستخدمها البشر لتوليد المزيد من الهراء، قبل جمعها واستخدامها لتدريب نماذج أخرى، وهكذا دواليك.

وتمتد هذه المشكلة -أي تلقيم الذكاء الاصطناعي بمخرجات من إنتاجه في حلقة مفرغة لإنتاج مخرجات أسوأ- إلى نطاق الصور أيضاً. وقد قال باحث الذكاء الاصطناعي في كلية الملك في لندن، مايك كوك، في مقال جديد لزميلي ويل دوغلاس هيفن حول مستقبل نماذج الذكاء الاصطناعي التوليدي: “لقد تلوثت الإنترنت إلى الأبد بالصور التي ولدها الذكاء الاصطناعي”.

“إن الصور التي صنعناها في 2022 ستكون جزءاً من أي نموذج يتم صنعه لاحقاً”.

صعوبة العثور على بيانات مناسبة لتدريب النماذج مستقبلاً

وفي المستقبل سيكون من الصعب على نحو متزايد العثور على بيانات تدريب عالية الجودة وخالية بشكل مضمون من إنتاج الذكاء الاصطناعي، كما تقول دافني إيبوليتو، إحدى كبار العلماء في جوجل برين (Google Brain)، وهي الوحدة البحثية الأساسية للشركة في مجال التعلم العميق. وإذا رغبنا في أن نمنع تسرب التحيزات والمعلومات المزيفة إلى أنظمة الذكاء الاصطناعي على عدة درجات مختلفة، لن يعود من الكافي سحب كميات ضخمة من النصوص عن الإنترنت كيفما اتفق.

تقول إيبوليتو: “من المهم للغاية أن ندرس مدى الحاجة الفعلية إلى التدريب باستخدام الإنترنت فقط، أو وجود طرائق نستطيع بمساعدتها فلترة البيانات لزيادة الجودة والحصول على النماذج اللغوية التي نرغب فيها حقاً”.

إن بناء أدوات لكشف النصوص التي ولدها الذكاء الاصطناعي سيكون مهماً للغاية عندما يحاول البعض –وهو أمر حتمي- تقديم أوراق علمية أو مقالات أكاديمية قام الذكاء الاصطناعي بتأليفها، أو استخدام الذكاء الاصطناعي لتأليف أخبار مزيفة أو معلومات خاطئة.

قد تستطيع الأدوات التقنية مساعدتنا، ولكن يجب على البشر أن يصبحوا أكثر يقظة وبراعة أيضاً.

اقرأ أيضاً: شرح تكنولوجيا أوبن إيه آي لاستخدام الذكاء الاصطناعي في كتابة القصص الخيالية وتوليد الأخبار المزيفة

تقول إيبوليتو إنه توجد بعض الأدلة التي تميز النص الذي ولده الذكاء الاصطناعي. فالبشر يكتبون بشكل فوضوي. وكتاباتهم مليئة بالأخطاء المطبعية والكلمات العامية، وبالتالي فإن البحث عن هذا الشكل من الأخطاء والتفاصيل الدقيقة وسيلة جيدة لكشف النص الذي كتبه البشر. وفي المقابل، فإن النماذج اللغوية الكبيرة تعمل عن طريق توقع الكلمة التالية في الجملة، وهي أكثر ميلاً لاستخدام الكلمات الشائعة بدلاً من الكلمات الغريبة والنادرة. وعلى الرغم من أنها تكاد لا تخطئ في تهجئة كلمة على الإطلاق، فإنها تعطي نتائج خاطئة دون شك. تقول إيبوليتو إن الناس يجب أن يبحثوا عن التضاربات الخفية أو الأخطاء المتعلقة بالحقائق في النصوص التي يتم تقديمها على أنها معلومات صحيحة، على سبيل المثال.

أما الخبر السار فهو أن الأبحاث تشير إلى أنه يمكن من خلال التدريب زيادة مهارة البشر في كشف النصوص التي ولدها الذكاء الاصطناعي. وربما ما زال الأمل موجوداً.