تضمين الكلمات Word Embedding

1 دقيقة

ما هي تقنية تضمين الكلمات؟

هي مرحلة من مراحل معالجة اللغات الطبيعية، وتُعرف بأنها عملية تحويل البيانات النصية إلى مقابلات عددية يستطيع الحاسوب فهمها من خلال استخدام خوارزميات التضمين، والتي تستخدم مخرجاتها كدخل لخوارزمية التعلم الآلي المستخدمة في معالجة اللغة الطبيعية.

أهمية تضمين الكلمات

تسهّل خوارزميات التضمين تطبيق التعلم الآلي على مجموعات بيانات كبيرة مثل المتجهات المتفرقة التي تمثل الكلمات. تقوم خوارزمية التضمين بتجميع المدخلات عن طريق وضع مدخلات متشابهة لغوياً قريبة من بعضها بعضاً في مساحة التضمين الواحدة. يمكن تدريب النماذج على تضمين الكلمات وإعادة استخدامها لاحقاً.

تاريخ تضمين الكلمات

نشرت الورقة البحثية عام 2003 بعنوان النموذج اللغوي العصبوني الاحتمالي، وقام بصياغة المصطلح يوشوا بنجيوا وتم تدريب الشبكات العصبونية لأول مرة مع محددات تضمين الكلمات، لتتبعها العديد من خوارزميات تضمين الكلمات مثل خوارزمية تحويل الكلمات إلى متجهات (Word2Vec) في عام 2013 التي أسسها توماس ميكولوف.

خوارزميات تضمين الكلمات

على الرغم من وجود العديد من خوارزميات تضمين الكلام، فإن معظمها يتطلب هذه الخطوات: 

  • بدايةً، يتم تجميع الكلمات التي نريد تحويلها لدخل خوارزمية التعلم الآلي.
  • من ثمّ اختيار بعد الشعاع للكلمة والذي يرمز لعدد الميزات في الكلمة.
  • قيمة كل شعاع تكون ضمن المجال [-1,1].
  • كلما كانت القيمة أقرب للواحد كلما عبرت عن الكلمة أكثر.
  • يتم حساب المسافة الإقليدية بين كلمتين لقياس التشابه بينهما.

تحديات تضمين الكلمات

على الرغم من إثبات جدارة معالجة اللغات الطبيعية، فإن خوارزميات تضمين الكلمات ما زالت غير ذكية بالشكل الكافي لتفهم الترادف اللغوي والسياق والنوايا والتبديل اللفظي للإيحاء بمعانٍ أخرى، مثل المزاح خاصة مع لغات مثل اللغة العربية وتطور اللغة مع الوقت وظهور المصطلحات الجديدة، ما يخلق عائقاً أمام قدراتها ويولد النتائج الخاطئة.