هو عبارة عن ثغرة أمنية تؤثر على بعض نماذج التعلم الآلي في الذكاء الاصطناعي، وتحديداً على النماذج اللغوية التي تستخدم التعلم بأوامر الإدخال.
تم الإبلاغ عن هذه الثغرة بدايةً لشركة أوبن أيه آي (openAI) المسؤولة عن تطوير نموذج تشات جي بي تي (ChatGPT) بواسطة جون سيفالو في أيار/ مايو 2022.
ولم يتم الإفصاح عنها حتى شهر أيلول/ سبتمبر في السنة نفسها بواسطة رايلي جود سايد.
أظهر رايلي في تغريدته على تويتر كيف كان من الممكن إنشاء مدخلات ضارة جعلت النموذج اللغوي يغير سلوكه المتوقع.
يعمل تشات جي بي تي بتقنية التعلم بأوامر الإدخال، ويعد التعلم بأوامر الإدخال نهجاً مختلفاً عن التدريب المسبق. بدلاً من إنشاء نموذج جديد يعتمد على نموذج مدرب مسبقاً لكل مهمة نريد القيام بها.
يتم تجميد النموذج المدرب مسبقاً (لا يوجد تحديث للمعاملات) ويتم تنفيذ التخصيص للمهمة المحددة عبر موجه الأوامر، من خلال تقديم أمثلة على المهمة الجديدة التي نريد تحقيقها.
يتم التدريب من خلال إدخال أمثلة في موجه الأوامر، مثلاً إذا أردنا تدريب النموذج على أضداد الكلمات ندخل له "طويل وقصير، بعيد وقريب" وندخل بعدها استعلام عن ضد كلمة ما ويقوم بالرد وفق السابق.
قد يكون من المستحيل إلغاء هذا الهجوم في الوقت الحالي نظراً لأن معالجة اللغات الطبيعية ما زالت تتعلم من خلال التعلم بأوامر الإدخال، ولكن بإمكاننا حماية نموذجنا اللغوي قدر الإمكان للتخفيف من الآثار السلبية. ومن هذه الطرق ما يلي: