يعرف أيضاً باسم التعرف على النصوص، وهو استخدام تقنيات مثل معالجة الصورة والذكاء الاصطناعي لتمييز النصوص المطبوعة أو المكتوبة يدوياً داخل الصور الرقمية للمستندات الفيزيائية مثل المستندات الورقية الممسوحة ضوئياً، واستخراج تلك النصوص لتخزينها كبيانات رقمية. تتضمن عملية التعرف الضوئي على المحارف فحص النصوص الموجودة في المستندات وترجمة المحارف إلى شيفرات رقمية يمكن للحواسيب فهمها واستخدامها لمعالجة تلك النصوص.
تتجلى الخطوة الأولى في عملية التعرف الضوئي على المحارف في استخدام الماسح الضوئي لمعالجة المستندات الفيزيائية وتحويلها إلى صور. وبمجرد نسخ كافة الصفحات تبدأ عملية التعرف؛ حيث يتم تحويل المستند إلى اللونين الأبيض والأسود. ثم يتم تحليل الصور لتحديد المناطق الداكنة والفاتحة؛ إذ تُعتبر المناطق الداكنة محارف يجب التعرف عليها والمناطق الفاتحة خلفية.
بعد الانتهاء من الخطوات السابقة تتم معالجة المناطق الداكنة للتعرف على حروف الأبجدية والأرقام العددية، ويتم ذلك بواحدة من الطرق التالية: