هي مرحلة من مراحل معالجة اللغات الطبيعية، وتُعرف بأنها عملية تحويل البيانات النصية إلى مقابلات عددية يستطيع الحاسوب فهمها من خلال استخدام خوارزميات التضمين، والتي تستخدم مخرجاتها كدخل لخوارزمية التعلم الآلي المستخدمة في معالجة اللغة الطبيعية.
تسهّل خوارزميات التضمين تطبيق التعلم الآلي على مجموعات بيانات كبيرة مثل المتجهات المتفرقة التي تمثل الكلمات. تقوم خوارزمية التضمين بتجميع المدخلات عن طريق وضع مدخلات متشابهة لغوياً قريبة من بعضها بعضاً في مساحة التضمين الواحدة. يمكن تدريب النماذج على تضمين الكلمات وإعادة استخدامها لاحقاً.
نشرت الورقة البحثية عام 2003 بعنوان النموذج اللغوي العصبوني الاحتمالي، وقام بصياغة المصطلح يوشوا بنجيوا وتم تدريب الشبكات العصبونية لأول مرة مع محددات تضمين الكلمات، لتتبعها العديد من خوارزميات تضمين الكلمات مثل خوارزمية تحويل الكلمات إلى متجهات (Word2Vec) في عام 2013 التي أسسها توماس ميكولوف.
على الرغم من وجود العديد من خوارزميات تضمين الكلام، فإن معظمها يتطلب هذه الخطوات:
على الرغم من إثبات جدارة معالجة اللغات الطبيعية، فإن خوارزميات تضمين الكلمات ما زالت غير ذكية بالشكل الكافي لتفهم الترادف اللغوي والسياق والنوايا والتبديل اللفظي للإيحاء بمعانٍ أخرى، مثل المزاح خاصة مع لغات مثل اللغة العربية وتطور اللغة مع الوقت وظهور المصطلحات الجديدة، ما يخلق عائقاً أمام قدراتها ويولد النتائج الخاطئة.