سحب البيانات Data Scraping

1 دقيقة

ما هو سحب البيانات؟

هو عملية استيراد البيانات من مواقع الويب إلى الحاسب الشخصي أو جداول البيانات، ويُستخدم لاستخراج البيانات من الويب، إمّا للاستخدام الشخصي أو لإعادة استخدام البيانات على مواقع الويب الأخرى.

أنواع سحب البيانات

يوجد ثلاثة أنواع من سحب البيانات:

  • استخراج التقارير: تسحب البرامج البيانات من مواقع الويب وتحوّلها إلى التقارير التي ينشئها المستخدمون، ويشبه إلى حد ما طباعة الصفحة التي تكوّن تقرير المستخدم.
  • تحديثات البرامج: تسحب الأداة بيانات حول البرمجيات القديمة إلى الإصدارات الحديثة.
  • سحب بيانات الويب: تسحب الأدوات البيانات من مواقع الويب إلى التقارير التي يمكن للمستخدمين تخصيصها. 

لماذا يتم سحب البيانات؟

تختلف أهداف كل شخص عن الآخر في سحب البيانات، إليك أبرز الحالات الممكنة:

  • تحليل المنافسين: يمكن تحليل ودراسة المنافسين وتحليل منتجاتهم الأكثر مبيعاً وتحليل الحصة السوقية على الإنترنت، بحيث تستطيع تكنولوجيا سحب البيانات إيضاح تكلفة المنتج وعدد الأشخاص الراغبين في شرائه، وهو من أفضل أهداف سحب البيانات.
  • تقديم تقارير متعمقة: توفّر تكنولوجيا سحب البيانات على المراسلين عناء كتابة جميع التقارير يدوياً، ما سيضيف وقتاً إلى المشروع وإظهار الجودة والتفاصيل.
  • تجميع البيانات: يمكن استخدام سحب البيانات لتجميع معلومات حول أمر واحد في مكان واحد من كل صفحات الإنترنت والنشرات الإلكترونية وغيرها من المصادر.
  • ترقيات الموقع: إذا كنت تعمل مع حاسوب قديم لا يمكنه العمل مع نظام جديد، بدلاً من محاولة إعادة الترميز أو تغيير الجهاز يمكن سحب البيانات المتعلقة بالإصدارات الأحدث والبدء باستخدامها.

سحب البيانات والأمن السيبراني

إذا تمكن المتسللون من الوصول إلى البيانات التي جُمعت من خلال سحب البيانات، يمكنهم استغلالها في الهجمات الإلكترونية، ومن أكثر الهجمات شيوعاً:

  • هجمات التصيد الاحتيالي: يمكن للمهاجمين الاستفادة من البيانات المسحوبة لتحسين تقنيات التصيد الاحتيالي الخاصة بهم. يمكنهم معرفة الموظفين الذين لديهم أذونات الوصول لاستهدافهم.
  • التصيد الاستهدافي الدقيق: إذا تمكن المهاجمون من معرفة البيانات الحساسة لكبار الموظفين والأشخاص المهمين، يمكنهم تنفيذ هجمات محددة للغاية ومصممة خصيصاً للضحية.
  • هجمات اختراق كلمات المرور: يمكن للمهاجمين اختراق أوراق الاعتماد لاختراق بروتوكولات المصادقة، حتى لو لم يتم تسريب كلمات المرور مباشرة. يمكنهم دراسة المعلومات المتاحة للجمهور حول الموظفين لتخمين كلمات المرور بناء على التفاصيل الشخصية.