كيف تنشئ بيانات وهمية لتدريب نماذج الذكاء الاصطناعي؟

حقوق الصورة: shutterstock.com/everything possible

استمع الى المقالة الآن هذه الخدمة تجريبية

الذكاء الاصطناعي هو قدرة الآلات على أداء المهام التي تتطلب عادةً ذكاءً بشرياً، مثل التفكير المنطقي والتعلم واتخاذ القرارات وحل المشكلات. تعتمد أنظمة الذكاء الاصطناعي على البيانات للتعلم وتحسين أدائها بمرور الوقت، فالبيانات هي القلب النابض لنماذج الذكاء الاصطناعي، ويمكن أن تحدد جودة البيانات وكميتها نجاح أو فشل مشاريع الذكاء الاصطناعي.

لكن في كثيرٍ من الحالات، يكون الحصول على بيانات حقيقية وذات صلة لتدريب الذكاء الاصطناعي أمراً صعباً أو مكلفاً أو حتى مستحيلاً. على سبيل المثال، قد يحتاج المطورون إلى بعض البيانات الحساسة أو النادرة أو التي تخضع لقيود قانونية. في مثل هذه الحالات، يمكن أن يكون إنشاء بيانات وهمية، والمعروفة أيضاً باسم البيانات الاصطناعية، بديلاً قابلاً للتطبيق.

البيانات الوهمية هي بيانات يتم إنشاؤها بشكلٍ مصطنع وتشبه البيانات الحقيقية، لكنها لا تحتوي على أي معلومات حقيقية حول أشخاص أو كيانات أو أحداث حقيقية.

ما المقصود بالبيانات الوهمية؟

البيانات الوهمية هي بيانات لا يتم جمعها من مصادر حقيقية، بل يتم إنشاؤها بشكلٍ مصطنع باستخدام أساليب وطرق مختلفة. يمكن أن تختلف هذه البيانات حسب الغرض منها وسبب استخدامها. على سبيل المثال، قد تكون عشوائية تماماً، مثل سلاسل الأرقام أو الحروف، أو واقعية جزئياً، مثل الأسماء أو العناوين غير الحقيقية، أو واقعية تماماً، مثل الصور أو النصوص التي لا يمكن تمييزها عن تلك الحقيقية.

هل يمكن استخدام بيانات وهمية لتدريب نماذج الذكاء الاصطناعي؟

الجواب هو نعم، ولكن مع بعض التحذيرات. يمكن استخدام البيانات الوهمية لتدريب نماذج الذكاء الاصطناعي عندما تكون البيانات الحقيقية غير متوفرة أو غير مرغوب في استخدامها. لكن لا ينبغي اعتبار البيانات الوهمية بديلاً عن البيانات الحقيقية، بل كمكمل لها. ويجب أن تكون البيانات الوهمية أقرب ما يمكن إلى البيانات الحقيقية من حيث الهيكل والتنوع والتعقيد. بخلاف ذلك، قد تؤدي إلى تحيزات أو أخطاء أو تناقضات تؤثر في أداء نماذج الذكاء الاصطناعي.

لذلك، يجب استخدام البيانات الوهمية بحذر، ويجب التحقق من صحتها ومقارنتها بالبيانات الحقيقية إن أمكن ذلك. يجب أيضاً اختبارها في سيناريوهات مختلفة لتقييم موثوقيتها، وينبغي ألّا تُستخدم بشكلٍ أعمى لتدريب نماذج الذكاء الاصطناعي دون مراعاة قيودها.

متى يمكن اللجوء إلى استخدام البيانات الوهمية؟

هناك العديد من المواقف التي قد نحتاج فيها أو نرغب في استخدام بيانات وهمية لتدريب نماذج الذكاء الاصطناعي. إليك بعضاً من هذه الحالات:

البيانات الحقيقية نادرة أو غير متوفرة

بعض المجالات لا يوفّر مصادر بيانات حقيقية كافية لأسباب عديدة تتعلق بالخصوصية أو الأمان أو التنظيم أو القوانين. على سبيل المثال، قد يكون من الصعب أو المستحيل الحصول على سجلات طبية لتشخيص الأمراض النادرة أو المعاملات المالية للكشف عن الاحتيال أو المعلومات الشخصية للتحقق من الهوية. في مثل هذه الحالات، يمكن أن تساعد البيانات الوهمية على إنشاء أمثلة متنوعة لتدريب نماذج الذكاء الاصطناعي.

البيانات الحقيقية مكلفة أو تتطلب وقتاً طويلاً لجمعها

قد يتطلب بعض المجالات الكثير من الموارد أو الجهد للحصول على بيانات حقيقية لأسباب مختلفة، مثل التعقيد أو التنوع أو الجودة. على سبيل المثال، قد تتطلب نماذج التعرف على الوجوه آلاف أو حتى ملايين الصور لوجوه الأشخاص في مختلف الأوضاع والتعبيرات، في مثل هذه الحالة، يمكن أن تساعدنا الصور الوهمية على تقليل تكلفة ووقت جمع الصور الحقيقية.

البيانات الحقيقية حساسة أو سرية

بعض المجالات يتطلب بيانات تحتوي على معلومات شخصية أو سرية لا يمكن مشاركتها أو كشفها بسبب الالتزامات الأخلاقية أو القانونية أو التعاقدية. على سبيل المثال، تكون السجلات الصحية أو أرقام بطاقات الائتمان أو المعلومات العسكرية محمية بقوانين الخصوصية أو اتفاقيات عدم الإفشاء أو بروتوكولات الأمان. في مثل هذه الحالات، يمكن أن تساعد البيانات الوهمية على الحفاظ على سرية البيانات الحقيقية.

كيف يتم إنشاء بيانات وهمية؟

هناك طرق وأساليب وأدوات مختلفة لإنشاء بيانات وهمية اعتماداً على النوع والتنسيق والتعقيد والمجال المرغوب، إليك بعض أفضل الأساليب المستخدمة:

التوليد القائم على القواعد

تتضمن هذه الطريقة تحديد مجموعة من القواعد أو القيود التي تحدد بنية البيانات الوهمية وتنسيقها ونطاقها. على سبيل المثال، يمكن إنشاء أسماء وهمية باستخدام قائمة تضم عدداً كبيراً من الأسماء الأولى والأخيرة ثم الجمع بينهما بشكلٍ عشوائي، أو إنشاء أرقام هواتف وهمية باستخدام بادئة محددة مسبقاً ثم توليد الأرقام عشوائياً. هذه الطريقة بسيطة وسريعة وسهلة ويمكن القيام بها يدوياً أو استخدام نماذج الذكاء الاصطناعي التوليدي لتنفيذها، لكنها قد تولد بيانات وهمية متشابهة أو يمكن التنبؤ بها.

التوليد الإحصائي

تتضمن هذه الطريقة تحليل الخصائص الإحصائية للبيانات الحقيقية ثم استخدامه لتوليد بيانات وهمية تتبع الخصائص نفسها. على سبيل المثال، يمكن إنشاء ارتفاعات وأوزان وهمية بناءً على المتوسط الحسابي للارتفاعات والأوزان الحقيقية، هذه الطريقة أكثر واقعية وتنوعاً، ولكنها قد تتطلب قدراً كبيراً من البيانات الحقيقية لتقدير الإحصائيات بدقة.

التوليد بالذكاء الاصطناعي

تتضمن هذه الطريقة تدريب نموذج ذكاء اصطناعي على البيانات الحقيقية واستخدامها لإنشاء بيانات وهمية تشبهها. هذه الطريقة هي الأكثر تقدماً والأسرع تنفيذاً، لكنها تتطلب الكثير من موارد الحوسبة والوقت لتدريب النموذج.

استخدام البيانات الوهمية: مقارنة بين الإيجابيات والسلبيات

إن استخدام البيانات الوهمية لتدريب نماذج الذكاء الاصطناعي له إيجابيات وسلبيات يجب موازنتها بعناية قبل اتخاذ قرار باستخدامها أم لا. فيما يلي نظرة عامة على بعض هذه الإيجابيات والسلبيات.

الإيجابيات

تساعد البيانات الوهمية في التغلب على التحديات والقيود المفروضة على البيانات الحقيقية، مثل الندرة أو التوافر أو التكلفة أو الوقت أو الخصوصية أو الأمان أو التنظيم.
تساعد البيانات الوهمية على زيادة كمية وتنوع البيانات المتاحة لتدريب نماذج الذكاء الاصطناعي، ما قد يؤدي إلى تحسين أداء النماذج.
تساعد البيانات الوهمية على حماية البيانات الحقيقية السرية أو الشخصية، ما يضمن تجنب إساءة استخدامها أو تسريبها.
تساعد البيانات الوهمية على استكشاف احتمالات وسيناريوهات جديدة، ما يجعل نماذج الذكاء الاصطناعي أكثر إبداعاً.

السلبيات

قد لا تحتوي البيانات الوهمية على جميع خصائص البيانات الحقيقية، ما قد يؤثّر في دقة نماذج الذكاء الاصطناعي.
قد تتضمن البيانات الوهمية تحيزات أو أخطاءً تؤثّر في تدريب نماذج الذكاء الاصطناعي، ما قد يؤثّر في موثوقية النماذج.
قد لا تعكس البيانات الوهمية الاتجاهات والتغيرات ذات الصلة في العالم الحقيقي، ما قد يؤثّر في استجابة نماذج الذكاء الاصطناعي وقدرتها على التكيُّف.
قد تُثير البيانات الوهمية قضايا أخلاقية أو قانونية تتعلق بإنشائها أو استخدامها أو ملكيتها، الأمر الذي يتطلب دراسة متأنية وتنظيماً.